텍스트 데이터를 처리할 때 문자가 왜곡되는 문제가 자주 발생합니다. 왜곡된 문자는 문자 인코딩 변환 프로세스로 인해 문자가 비정상적으로 표시되는 것을 의미합니다. Python은 잘못된 문자 문제를 해결하는 데 도움이 되도록 문자열을 인코딩하고 디코딩하는 몇 가지 방법을 제공합니다. 이 기사에서는 문자열 인코딩 및 디코딩에 Python을 사용하는 방법을 소개하고 해당 소스 코드 예제를 제공합니다.
- 문자열 인코딩
문자열을 처리하기 전에 먼저 문자 인코딩의 개념을 이해해야 합니다. 문자 인코딩은 문자를 바이트 시퀀스로 변환하는 프로세스입니다. 일반적인 문자 인코딩에는 ASCII, UTF-8, GBK 등이 포함됩니다. Python에서 문자열의 기본 인코딩은 UTF-8입니다.
문자열을 바이트 시퀀스로 변환하려면 문자열의 encode() 메서드를 사용할 수 있습니다. 이 메소드는 인코딩 방법을 지정하는 매개변수를 승인합니다. 예는 다음과 같습니다.
text = "你好,世界!"
encoded_text = text.encode("UTF-8")
print(encoded_text)
위 코드를 실행하면 출력은 다음과 같습니다.
b'\xe4\xbd\xa0\xe5\xa5\xb