programmation de base Pytho: python en utilisant la méthode de détermination de chaîne codée chardet

Cet article décrit le procédé de l'exemple chardet déterminée en utilisant la chaîne codée de python. Partager vous pour votre référence. Une analyse spécifique est la suivante:

Python récente utilisation des données en ligne grab, les problèmes rencontrés codage. Maux de tête, résumer la solution utilisée.

afficher des fichiers codés dans le linux vim commande fileencoding SET
détection de code Python dans un package fort chardet, très simple à utiliser. installation simple en utilisant linux pip installer chardet

import chardet
f = open('file','r')
fencoding=chardet.detect(f.read())
print fencoding

fencoding format de sortie { 'confiance': 0,96630842899499614, 'encoding': 'GB2312'}, la probabilité est déterminée que si un certain code. résultat plus précis. les paramètres d'entrée de type Str.

Après codage peut apprendre la str python réalisé à l'aide de conversion de décodage et encodage encode.

Un procédé de codage de flux général str str en utilisant le décodage décode dans le type de chaîne de caractères unicode, alors l'utilisation de codage spécifique selon l'encoder le type de chaîne de caractères unicode de codage particulier à convertir. str unicode en python et appartenant à deux types différents, comme suit.

par défaut de la fenêtre encodage GBK En règle générale, par défaut linux encodage UTF8
système de codage programmation python concept, codage python, l' encodage de fichiers.

System Code: l'éditeur d'encodage par défaut à écrire du code source. Il représente tout le contenu dans les fichiers source sont codés dans le flux de code binaire en fonction du mode de mot. Stocké sur le disque. Voir par commande locale sous linux.

python codage: des moyens de décodage prévus dans le python. Si non défini, alors, par défaut python est le mode de décodage ascii. Si les Chinois ne semblent pas le fichier de code source python, alors cet endroit est la façon dont l'ensemble ne devrait pas être un problème.

Méthode de réglage: au début du fichier source (il doit être la première ligne): # - -coding: UTF-8 -, à condition que le système de décodage fichier source est UTF-8, ou

import sys
reload(sys)
sys.setdefaultencoding('UTF-8')

encodage du fichier: le codage du texte, sous linux vim utiliser Aff fileencoding.

La raison pour laquelle la distorsion de sortie est généralement pas codé à la manière d'un décodeur du système.

Pour le type s str exemple impression s, système linux est le système par défaut encodage encodage UTF8, s avant que la sortie doit être codé en UTF8. Si s est GBK de codage devrait donc sortie. imprimer s.decode ( 'GBK'). encode ( 'utf8') pour la production chinoise.

En suivant le même cas de fenêtre, l'encodage par défaut de la fenêtre est l'encodage GBK, il doit être codé avant la sortie de GBK.

python unicode type général de procédé de traitement. Ainsi, avant le codage peut être émis directement.

Dans cet article, nous espérons que le programme Python conçu pour aider le
contenu sur plus de combien, et enfin recommander une bonne réputation dans le nombre d'institutions publiques [programmeurs], il y a beaucoup de voitures anciennes compétences d' apprentissage, l' expérience d' apprentissage, les techniques d'entrevue, et d' autres expériences en milieu de travail à part, plus nous avons soigneusement préparé les informations d' introduction à base zéro, des informations sur des projets réels, le calendrier doit expliquer la technologie de programmation Python tous les jours, partager des méthodes d'apprentissage et la nécessité de faire attention aux petits détailsInsérer ici l'image Description

Publié six articles originaux · louanges gagnées 0 · Vues 9

Je suppose que tu aimes

Origine blog.csdn.net/chengxun02/article/details/104976468
conseillé
Classement