[Python • Reconnaissance d'images] pytesseract reconnaît et extrait rapidement le texte des images

insérez la description de l'image ici

Astuce : Il y a beaucoup d'images dans cet article, veuillez faire attention au trafic sur le téléphone mobile.


avant-propos

En utilisant python pour la reconnaissance d'image, il existe de nombreuses façons de reconnaître et d'extraire le texte de l'image, mais si vous voulez faire quelque chose de plus simple, vous pouvez utiliser le moteur de reconnaissance tesseract pour y parvenir, et une ligne de code peut extraire le texte de l'image. .


1. Environnement de configuration

1. Installer les dépendances Python

Ce programme utilise deux bibliothèques python, pytesseract et PIL, donc installez-les d'abord.

exécutez la commande suivante

pip install Pillow
pip install pytesseract 

Si aucune erreur n'est signalée en python, cela signifie que le programme est installé avec succès.
insérez la description de l'image ici

2. Installez le moteur de reconnaissance

Après avoir installé les deux dépendances ci-dessus, le moteur de reconnaissance correspondant est requis. cliquez pour télécharger

Nous utilisons directement la dernière version construite le 10 mai.
insérez la description de l'image ici

Installer le moteur de reconnaissance tesseract(可跳过)

Une fois le téléchargement terminé, ouvrez le programme à installer, sélectionnez d'abord la langue, choisissez l'anglais ici English, puis cliquez surok

insérez la description de l'image ici
La prochaine chose est next, cliquez sur I Agreeaccepter l'accord,
insérez la description de l'image ici
insérez la description de l'image ici
installer pour tous les utilisateurs, puis cliquez sur next, comme indiqué sur l'image,
insérez la description de l'image ici
puis installez le pack de langue chinoise 用来识别中文, vous devez glisser vers le bas, sélectionner le chinois, j'ai sélectionné les deux Chinois simplifié horizontal et chinois simplifié vertical, cliquez sur suivant après avoir terminé,
insérez la description de l'image ici
insérez la description de l'image ici
sélectionnez le chemin d'installation, il est recommandé d'installer sur un autre lecteur que le lecteur C, puis cliquez next
insérez la description de l'image ici
ici pour installer install,

insérez la description de l'image ici
Attendez la fin de l'installation
insérez la description de l'image ici
Une fois l'installation terminée, cliquez sur next, puis sur finishpour terminer l'installation,
insérez la description de l'image ici
insérez la description de l'image ici

Vérifier que l'installation a réussi

Ajoutez une variable d'environnement, qui est le chemin du dossier dans lequel vous avez installé, ajoutez-la directement au chemin,
insérez la description de l'image ici
puis exécutez-la sur la ligne de commande tesseract -v. Si elle est identique à la figure ci-dessous, cela signifie que vous l'avez installée avec succès. .
insérez la description de l'image ici

2. Utilisez les étapes

1. Importer la bibliothèque

from PIL import Image
import pytesseract

2. Extraire le texte de l'image

Encapsuler une ligne de code pour lire des images dans une fonction,

def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))

mainAppelez-le directement dans la fonction ,

def main():
    read_image('1657158527412.jpg')

3. Effet de l'opération

Prenez l'image suivante comme exemple,
insérez la description de l'image ici

L'effet de fonctionnement est le suivant,
insérez la description de l'image ici


Résumer

Cet article présente l'appel python de tesseract, c'est-à-dire la bibliothèque pytesseract. Il existe d'autres contenus qui n'y sont pas impliqués. Il ne s'agit que d'extraction d'image et de texte. Si cela vous intéresse, vous pouvez l'explorer en profondeur et J'espère en discuter avec moi. .

code complet

from PIL import Image
import pytesseract


def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))


def main():
    read_image('img.png')


if __name__ == '__main__':
    main()

Je suppose que tu aimes

Origine blog.csdn.net/weixin_47754149/article/details/125651707
conseillé
Classement