La construction du dictionnaire émotionnel chinois

Cet article a participé à l'activité "Newcomer Creation Ceremony" et a commencé ensemble la route de la création de Nuggets

Tout d'abord, l'analyse des sentiments en anglais étranger a obtenu de bons résultats, grâce à la commodité de l'analyse des mots anglais et au grand ensemble de données en anglais WordNet. Cependant, en raison de la variabilité du chinois, de la multiplicité de la sémantique et du manque d'ensembles de données, l'analyse du sentiment national est temporairement en retard sur les pays étrangers. Cet article enregistrera l'expérience du blogueur dans la construction d'un dictionnaire émotionnel dans le projet et invitera tout le monde à me corriger.

Nous divisons d'abord le lexique des sentiments en lexique général des sentiments et en lexique spécial des sentiments.

1. Construction d'un dictionnaire général des sentiments

La construction du dictionnaire général des sentiments se fait principalement en intégrant les dictionnaires actuels des sentiments open source pour filtrer les mots répétitifs et inutiles. À l'heure actuelle, les dictionnaires émotionnels open source en ligne comprennent : le dictionnaire émotionnel HowNet, le dictionnaire chinois simplifié de polarité émotionnelle de l'Université nationale de Taiwan (NTSUSD), l'ontologie du vocabulaire émotionnel de l'Université de technologie de Dalian. Les deux premiers peuvent être trouvés en ligne, et le troisième doit se rendre sur le site officiel de l'école pour postuler, et vous pouvez l'obtenir après avoir expliqué le but.

2. Extension du Dictionnaire du Sentiment Universel

Les dictionnaires émotionnels mentionnés ci-dessus existent depuis longtemps, nous pouvons donc adopter certaines méthodes pour les développer. L'approche que nous adoptons ici consiste à ajouter les synonymes du dictionnaire au dictionnaire. Nous obtenons les synonymes du dictionnaire en utilisant la forêt de synonymes organisée par le Harbin Institute of Technology. Il convient de mentionner que la première édition de la forêt de synonymes est relativement ancienne, et maintenant il existe une version étendue de la forêt de synonymes organisée par le Harbin Institute de la Technologie. Le lien utilisé est ici : Harbin Institute of Technology Synonyms Lin Extended Edition Vous pouvez également utiliser la bibliothèque Synonyms de Python pour obtenir des synonymes lors de l'écriture de code. Il a été open source, le lien est : des synonymes tels que :

import synonyms
print("人脸: %s" % (synonyms.nearby("人脸")))
print("识别: %s" % (synonyms.nearby("识别")))
复制代码

3. Construction du dictionnaire des sentiments de domaine

La construction d'un dictionnaire de sentiments spécifique à un domaine nécessite l'utilisation du calcul d'informations mutuelles PMI et de l'entropie gauche et droite pour découvrir les nouveaux mots requis. Pour la méthode spécifique, nous pouvons ajouter des mots de départ émotionnels pour calculer le degré d'information mutuelle et l'entropie gauche et droite de chaque mot et les mots de départ émotionnels dans le corpus de mots divisés, puis combiner le degré d'information mutuelle avec l'entropie gauche et droite. , et sélectionnez le mot émotionnel le plus pertinent. Les mots TopN sont ajoutés au dictionnaire de sentiments correspondant. Ici vous pouvez vous référer au lien lien

calcul d'informations mutuelles

calcul d'informations mutuelles

  • p(x,y) est la probabilité que deux mots apparaissent ensemble
  • p(x) est la probabilité que le mot x apparaisse
  • p(y) est la probabilité que le mot y apparaisse

Exemple spécifique : 4G, carte réseau, carte réseau 4G ; si la fréquence de mots de 4G est de 2, la fréquence de mots de la carte réseau est de 10 et la fréquence de mots de la carte réseau 4G est de 1, alors le nombre total de mots simples est N , et le nombre total de mots doubles est M , alors il y a la formule suivanteexemple spécifique

entropie gauche et droite

Nous utilisons ici l'entropie gauche et droite pour mesurer le degré de liberté des mots présélectionnés (la carte réseau 4G est un mot présélectionné). est un mot séparé. Nous définissons ici l'entropie gauche et droite comme (en prenant l'entropie gauche comme exemple) : entropie gaucheIci, nous donnons encore un exemple précis pour le comprendre. On suppose qu'il y a tellement de combinaisons autour de la carte réseau 4G [acheter une carte réseau 4G , avoir une carte réseau 4G, et avoir une carte réseau 4G, perdre la carte réseau 4G] Alors l'entropie gauche de la carte réseau 4G est Exempleici A = [acheter, avoir, perdre]

Voici la mise en œuvre spécifique. La difficulté ici est d'obtenir ces valeurs de probabilité. Les usages rencontrés par les blogueurs sont : l'utilisation des moteurs de recherche pour obtenir le taux de co-occurrence des mots, c'est-à-dire p(x, y), l'utilisation de corpus pour obtenir la probabilité d'occurrence de chaque mot

Enfin, il suffit d'intégrer les dictionnaires émotionnels obtenus dans ces trois étapes.

Vous pouvez également aller sur mon blog personnel pour discuter et contacter, bienvenue pour me corriger. Blog personnel de JMX www.jmxgodlz.xyz Références : python3 implémente la découverte de nouveaux mots pour l'information mutuelle et l'entropie gauche et droite

Je suppose que tu aimes

Origine juejin.im/post/7084922133494628382
conseillé
Classement