Astuce : Il y a beaucoup d'images dans cet article, veuillez faire attention au trafic sur le téléphone mobile.
Annuaire d'articles
avant-propos
En utilisant python pour la reconnaissance d'image, il existe de nombreuses façons de reconnaître et d'extraire le texte de l'image, mais si vous voulez faire quelque chose de plus simple, vous pouvez utiliser le moteur de reconnaissance tesseract pour y parvenir, et une ligne de code peut extraire le texte de l'image. .
1. Environnement de configuration
1. Installer les dépendances Python
Ce programme utilise deux bibliothèques python, pytesseract et PIL, donc installez-les d'abord.
exécutez la commande suivante
pip install Pillow
pip install pytesseract
Si aucune erreur n'est signalée en python, cela signifie que le programme est installé avec succès.
2. Installez le moteur de reconnaissance
Après avoir installé les deux dépendances ci-dessus, le moteur de reconnaissance correspondant est requis. cliquez pour télécharger
Nous utilisons directement la dernière version construite le 10 mai.
Installer le moteur de reconnaissance tesseract(可跳过)
Une fois le téléchargement terminé, ouvrez le programme à installer, sélectionnez d'abord la langue, choisissez l'anglais ici English
, puis cliquez surok
La prochaine chose est next
, cliquez sur I Agree
accepter l'accord,
installer pour tous les utilisateurs, puis cliquez sur next
, comme indiqué sur l'image,
puis installez le pack de langue chinoise 用来识别中文
, vous devez glisser vers le bas, sélectionner le chinois, j'ai sélectionné les deux Chinois simplifié horizontal et chinois simplifié vertical, cliquez sur suivant après avoir terminé,
sélectionnez le chemin d'installation, il est recommandé d'installer sur un autre lecteur que le lecteur C, puis cliquez next
ici pour installer install
,
Attendez la fin de l'installation
Une fois l'installation terminée, cliquez sur next
, puis sur finish
pour terminer l'installation,
Vérifier que l'installation a réussi
Ajoutez une variable d'environnement, qui est le chemin du dossier dans lequel vous avez installé, ajoutez-la directement au chemin,
puis exécutez-la sur la ligne de commande tesseract -v
. Si elle est identique à la figure ci-dessous, cela signifie que vous l'avez installée avec succès. .
2. Utilisez les étapes
1. Importer la bibliothèque
from PIL import Image
import pytesseract
2. Extraire le texte de l'image
Encapsuler une ligne de code pour lire des images dans une fonction,
def read_image(name):
print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
main
Appelez-le directement dans la fonction ,
def main():
read_image('1657158527412.jpg')
3. Effet de l'opération
Prenez l'image suivante comme exemple,
L'effet de fonctionnement est le suivant,
Résumer
Cet article présente l'appel python de tesseract, c'est-à-dire la bibliothèque pytesseract. Il existe d'autres contenus qui n'y sont pas impliqués. Il ne s'agit que d'extraction d'image et de texte. Si cela vous intéresse, vous pouvez l'explorer en profondeur et J'espère en discuter avec moi. .
code complet
from PIL import Image
import pytesseract
def read_image(name):
print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
def main():
read_image('img.png')
if __name__ == '__main__':
main()