【翻译】Bing-CF-IDF+:语义驱动的新闻推荐系统

本文由 林鸿钊@funco 翻译,仅作为交流学习之用,诚向各方大佬请教。
翻译不易,感谢支持,转载也请注明出处,不胜感激。

翻译:Bing-CF-IDF+:语义驱动的新闻推荐系统

原文Bing-CF-IDF+: A Semantics-Driven News Recommender System

摘要: 随着网络中,新闻数量的不断增长,查找关联内容的需求也在增强。语义驱动的推荐系统通过用户的阅读记录生成用户画像,并与新闻相匹配,从而向用户推荐未读新闻项。本论文提出先进的语义驱动的 CF-IDF+ 新闻推荐系统。该新闻推荐系统通过识别新闻项的概念及其相关概念,从而构建用户画像,并对用户未未读的新闻信息进行分析处理。由于该领域的特性,且其依赖领域知识,使基于概念的推荐系统会忽略新闻项中许多高频,却包含新闻项相关信息的命名实体。因此,我们通过 Bing 距离,找到命名实体的隐含信息,并补充至 CF-IDF+ 推荐方法中。这使得我们的 Bing-CF-IDF+ 推荐方法在 F1 值和 Kappa 统计方面优于传统 TF-IDF;基于概念的 CF-IDF 和 CF-IDF+ 推荐方法。

译者注

这里的 Kappa 统计,我理解指的是卡帕系数(Kappa Coefficient),也称为科恩卡帕系数。是一种衡量分类精度的方法。

关键字: 新闻推荐系统;基于内容的推荐系统;语义网络;命名实体;Bing-CF-IDF+

Abstract.Avec la quantité toujours croissante de nouvelles sur le Web, le besoin de trouver automatiquement le contenu pertinent augmente. Les systèmes de recommandation d'actualités basés sur la sémantique suggèrent des éléments non lus aux utilisateurs en faisant correspondre les profils d'utilisateurs, qui sont basés sur les informations trouvées dans les articles lus précédemment, avec les nouvelles émergentes. Cet article propose une extension du système de recommandation d'actualités CF-IDF+ basé sur la sémantique, qui utilise des concepts d'articles d'actualités identifiés et leurs concepts associés pour construire des profils d'utilisateurs et traiter des messages d'actualités non lus. En raison de sa spécificité de domaine et de sa dépendance aux bases de connaissances, un tel système de recommandation basé sur un concept néglige de nombreuses entités nommées très fréquentes trouvées dans les articles d'actualité, qui contiennent des informations pertinentes sur le contenu d'un article d'actualité. Donc, nous étendons le recommandeur CF-IDF+ en ajoutant des informations trouvées dans des entités nommées, grâce à l'utilisation d'une mesure de distance basée sur Bing. Notre outil de recommandation Bing-CF-IDF+ surpasse le TF-IDF classique et les outils de recommandation basés sur le concept CF-IDF et CF-IDF+ en termes deF 1-score et la statistique Kappa.

mots clés. Système de recommandation de nouvelles ; Recommandateur basé sur le contenu ; Web sémantique; Entités nommées ; Bing-CF-IDF+ ;

1. Introduction

Le flux d'informations sur le Web croît à un rythme de plus en plus rapide et dépasse la quantité d'informations qui répond aux besoins des internautes. Afin de répondre aux besoins fondamentaux des utilisateurs pour accéder au réseau, il est extrêmement important de distinguer automatiquement et précisément les contenus pertinents et non pertinents. Les systèmes de recommandation se sont révélés être des outils efficaces pour le traitement des contenus médiatiques et d'actualités. Le système de recommandation peut utiliser des outils tels que des modèles de domaine pour agréger le contenu récemment visité afin de créer des portraits d'utilisateurs. Le traitement de nouveaux contenus du point de vue de la similarité permet de calculer la similarité entre les portraits d'utilisateurs et le contenu, de réaliser des programmes plus efficaces et intelligents pour traiter les informations excessives, puis de prendre en charge une expérience Web personnalisée.

The ever growing information stream on the Web is gradually overwhelming the rapidly increasing population of Web users that try to access information matching their needs. An automated and accurate approach for distinguishing between relevant and non-relevant content is becoming of utmost importance for fulfilling the basic needs of the people accessing the Web. Recommender systems [1] have proven to be powerful tools for efficient processing of media and news content. Such systems build up user profiles by gathering information on recently viewed content, e.g., by exploiting domain models [18]. New content is analyzed in a similar fashion, so that similarities between user profiles and content can be computed, thus supporting a personalized Web experience [19,20] through efficient and intelligent procedures to deal with the information overload.

通常,推荐系统分为三类:基于内容的推荐系统;协同过滤推荐系统和混合推荐系统。基于内容的推荐系统将未被发现的新闻、媒体等内容与用户的兴趣匹配作出推荐;协同过滤推荐系统寻找相似用户,并向最相似的用户推荐其喜欢的新内容;混合推荐则是两者结合。因此, (依据本文主题) 后文仅讨论基于内容的推荐系统。

Traditionally, there are three kinds of recommender systems: content-based recommenders, collaborative filtering recommenders, and hybrid recommenders [5]. Content-based recommenders use the content of the unseen news items, media, etc., to match the interests of the user. Collaborative filtering recommenders find similar users and recommend new content of interest to the most similar users. Hybrid recommenders combine the former two methods. In this paper, a new content-based recommender is proposed that is aimed specifically towards news recommendation. Therefore, solely content-based recommender systems are discussed in the remainder of this paper.

Le système de recommandation basé sur le contenu recommande le contenu non lu aux utilisateurs en fonction de la similitude entre les portraits des utilisateurs et le contenu des actualités. Il existe plusieurs façons de calculer la similarité, chaque mesure utilise un type d'information différent, l'une est basée sur des chaînes de texte d'actualités ; l'autre est basée sur des synsets ou des concepts. Dans cet article, nous étendons le système de recommandation sémantique CF-IDF+, qui s'est avéré plus performant que les systèmes de recommandation traditionnels TF-IDF et CF-IDF. TF-IDF calcule la similarité en fonction des termes, CF-IDF augmente encore la signification des concepts et CF-IDF+ utilise davantage les concepts associés de portraits d'utilisateurs ou d'articles de presse pour fournir des résultats de recommandation plus précis.

Content-based news recommenders suggest unread news items based on similarities between the content of the news item and the user profile. The similarity can be computed in various ways, each measure utilizing different types of information. Some measures are based on terms (text strings) found in news items, while others are based on synsets or concepts. In this paper, we propose an extension to the previously proposed semantics-driven CF-IDF+ recommender [9] that has already proved to outperform the classic TF-IDF [21] and CF-IDF [12] recommenders. Where TF-IDF employs term-based similarities, CF-IDF adds the notion of concepts. CF-IDF+ additionally makes use of concepts that are related to concepts extracted from a news article or user profile, providing more accurate representations.

Une autre approche de la recommandation basée sur le contenu consiste à utiliser des entités nommées dans les documents. Les entités nommées peuvent être considérées comme des instances textuelles d'objets (tels que des noms de personnes et de lieux). Généralement, les entités nommées sont utilisées pour l'analyse de texte et l'extraction d'informations. Par exemple : prise en charge d'une recherche plus efficace ; algorithmes de réponse aux questions ; systèmes de classification et de recommandation de texte. Récemment, les systèmes essaient de traiter de gros volumes de texte structuré ou semi-structuré. En ignorant les mots non pertinents et en ne considérant que les entités nommées, la dimension du calcul de similarité peut être considérablement réduite, garantissant ainsi la précision des recommandations et réduisant les coûts. Dans notre système de recommandation d'actualités, les concepts et les synsets sont également traités de cette manière, ce qui peut également être bénéfique pour compléter notre système.

Une autre méthode de recommandation basée sur le contenu est basée sur des entités nommées dans un document. Les entités nommées peuvent être considérées comme des instanciations réelles d'objets, tels que des personnes et des lieux. En règle générale, les entités nommées sont utilisées à des fins d'analyse de texte et d'extraction d'informations, par exemple en prenant en charge des algorithmes de recherche et de réponse aux questions plus efficaces, une classification de texte et des systèmes de recommandation [22]. Ces derniers systèmes doivent souvent traiter de grandes quantités de textes (semi-)non structurés. En omettant les mots non pertinents et en ne considérant que les entités nommées, la dimensionnalité des calculs de similarité peut être considérablement réduite, permettant ainsi des recommandations moins coûteuses mais précises. Cela est également conforme à l'utilisation des concepts et des synsets employés dans nos recommandations d'actualités, et pourrait constituer un ajout bénéfique à nos systèmes.

Les entités nommées font souvent la une des journaux, mais elles sont généralement ignorées car les systèmes de recommandation basés sur des concepts ne prêtent pas attention à cette partie par eux-mêmes. Par conséquent, la méthode CF-IDF+ n'utilise pas toutes les informations fournies par les informations des entités nommées. Une solution raisonnable à ce problème consiste à utiliser une méthode pour compter les heures d'occurrence de ces entités nommées dans différentes pages Web à partir de moteurs de recherche Web. Dans nos travaux précédents, nous avons utilisé la fonctionnalité liée aux entités nommées de Google, mais après que son API n'était plus gratuite, nous sommes passés à Bing, qui est toujours gratuit à ce jour.

Les entités nommées apparaissent souvent dans les actualités, mais sont pour la plupart négligées car elles ne sont, par exemple, pas présentes dans les ontologies de domaine qui sous-tendent les recommandations basées sur des concepts. Par conséquent, la méthode CF-IDF+ n'utilise pas toutes les informations fournies par les entités nommées. Une solution possible à ce problème est l'introduction d'une méthodologie qui prend en considération le nombre de pages recueillies par les moteurs de recherche Web tels que Google ou Bing pour des entités nommées spécifiques. Dans des travaux antérieurs, à l'origine, nous utilisions des entités nommées Google. Cependant, nous avons dû passer à Bing car l'utilisation de l'API Google n'était plus gratuite, tandis que l'utilisation de l'API Bing était toujours gratuite.

Note du traducteur

  1. À compter de la date de traduction, les pages Web de l'API Bing répertoriées dans les "Paper-References" d'origine ne sont plus accessibles. Les fonctions pertinentes ont été transférées à Azure, et vous pouvez demander un essai gratuit pendant une certaine période.
  2. Service de base Bing : https://cn.bing.com/partners/developers#LocalBusinessSearch
  3. Recherche d'entité Microsoft Azure-Bing : https://azure.microsoft.com/en-us/services/cognitive-services/bing-entity-search-api/

La méthode proposée dans cet article sera basée sur la méthode CF-IDF+, en considérant les informations des entités nommées contenues dans les nouvelles. C'est-à-dire une combinaison de la méthode CF-IDF+ et de la similarité calculée via l'API gratuite fournie par le moteur de recherche Bing. Le système de recommandation Bing-CF-IDF+ que nous allons implémenter se compose de deux parties avec une pondération indépendante : le système de recommandation CF-IDF+ calcule la similarité en fonction des concepts ; le système de recommandation Bing calcule la similarité en fonction des entités nommées. Le système de recommandation Bing-CF-IDF+ ne prend en compte que les entités nommées qui n'apparaissent pas dans l'ensemble de concepts. La principale contribution de ce travail est l'utilisation complète du concept de connaissance du domaine et des concepts associés (CF-IDF+) et des mesures de distance basées sur les moteurs de recherche dans les systèmes de recommandation de nouvelles.

The recommender proposed in this paper extends the CF-IDF+ method by using information given in the named entities of news items. It combines the results of the CF-IDF+ method with similarities computed by the Bing search engine, which offered, at the time of conducting the research, a free API [3]. Our proposed recommender, Bing-CF-IDF+, consists of two individually weighted parts. The CF-IDF+ recommender computes the similarity based on concepts, whereas the Bing recommender computes the similarity based on named entities. Only the named entities that do not appear in the concepts are considered by the Bing-CF-IDF+ recommender. The main contribution of this work is the joint exploitation of concepts and their relationships from a domain ontology (CF-IDF+), on one side, and named entities and a search engine-based distance measure (Bing), on the other side, in a news recommender system.

Le contenu sera décrit tour à tour dans les sections suivantes : le chapitre 2 discutera des travaux connexes sur les systèmes de recommandation existants ; le chapitre 3 présentera notre méthode et sa mise en œuvre ; le chapitre 4 évaluera les performances de Bing-CF-IDF+ Performance, et les comparera à Système de recommandation CF-IDF+, CF-IDF, TF-IDF. Le chapitre 5 présente les conclusions et ajoute quelques orientations pour les travaux futurs.

Le reste de cet article est organisé comme suit. Insecte. 2, les travaux connexes sur les recommandataires proposés précédemment sont discutés. La section 3 fournit une introduction à notre méthode et à sa mise en œuvre, et la section. 4 évalue les performances de Bing-CF-IDF+, par rapport aux recommandations CF-IDF+, CF-IDF et TF-IDF. La section 5 fournit des conclusions et quelques orientations supplémentaires pour les travaux futurs.

2 travaux connexes

Actuellement, de nombreuses études ont été menées sur les recommandateurs basés sur le profil. Ces systèmes de recommandation créent des portraits d'utilisateurs basés sur les enregistrements de navigation historiques de l'utilisateur, calculent la similitude entre le portrait de l'utilisateur et le contenu des actualités, et recommandent aux utilisateurs des articles qu'ils n'ont pas lus. Dans ce chapitre, nous présenterons principalement des systèmes de recommandation basés sur des termes, des synsets, des concepts, des relations et des entités nommées.

Les efforts de recherche sur les recommandateurs (de nouvelles) basés sur le profil ont été nombreux [14]. Ces recommandataires calculent les niveaux de similarité entre les articles d'actualité et les profils d'utilisateurs dérivés d'articles déjà lus, et les utilisent pour recommander des articles non vus. Dans cette section, nous nous concentrons sur les recommandations employant des termes, des synsets, des concepts, des relations et des entités nommées.

2.1 Système de recommandation basé sur les termes

Pour le système de recommandation de nouvelles, basé sur TF-IDF est l'une des méthodes les plus couramment utilisées. La méthode met en corrélation la fréquence du terme (TF ; la fréquence à laquelle le terme apparaît dans un document) et la fréquence inverse du document (IDF ; une mesure liée au nombre de documents contenant le terme). La plupart des méthodes utilisent la similarité cosinus (consine similarity) pour calculer la similarité entre les utilisateurs et les articles de presse.

TF-IDF [21], l'une des méthodes les plus couramment utilisées pour recommander des articles d'actualité, est basée sur les termes des articles d'actualité. La méthode combine la Term Frequency (TF), qui est la fréquence de termes spécifiques dans un document, et la Inverse Document Frequency (IDF) [16], qui est une mesure de la fraction de documents contenant ces termes. Cette méthode est souvent combinée avec la méthode de similarité cosinus pour déterminer la similarité entre les utilisateurs et les articles de presse.

Pour un document d ∈ D d \in D contenant un motdD , un mott ∈ T t \in TtFréquence des mots de T tf ( t , d ) tf(t, d)t f ( t ,d ) et sa fréquence de document inverseidf ( t , d ) idf(t, d)je f ( t ,d) 计算方式如下:

The term frequency of term t ∈ T in document d ∈ D, tf(t, d), and its associated inverse document frequency idf(t, d) are computed as follows:

t f ( t , d ) = n t , d Σ k n t , d tf(t, d) = \frac{n_{t,d}}{\Sigma_k{n_{t, d}}} tf(t,d)=Σknt,dnt,d

i d f ( t , d ) = log ⁡ ∣ D ∣ ∣ d ∈ D : t ∈ d ∣ idf(t, d) = \log{\frac{|D|}{|d \in D : t \in d|}} idf(t,d)=logdD:tdD

词频是新闻内容中,总词数与该词出现次数的比值。逆文档频率是总新闻数 ∣ D ∣ |D| D与包含该词 t t Le nombre de nouvelles pour t . Ensuite, TF-IDF est obtenu en multipliant TF et IDF. Plus la valeur TF-IDF est élevée, plus le mot apparaît souvent dans les actualités, mais moins dans les autres contenus d'actualités.

où les fréquences des termes sont calculées en divisant la fréquence de ce terme ttt apparaît dans l'actualitéd ( nt , d ) d (nt, d)d(nt,d ) par le nombre total de tous les termes de l'articledd . La fréquence inverse des documents est calculée comme une division du nombre total de nouvelles∣ D ∣ |D|D par le nombre de nouvelles dans lesquelles le termettt peut être trouvé. Par la suite, TF-IDF est calculé comme une multiplication de TF et IDF,

tf - idf ( t , ré ) = tf ( t , ré ) × idf ( t , ré ) tf\verb|-|idf(t, ré) = tf(t, ré) \times idf(t, ré)t f - je f ( t ,)=t f ( t ,)×je f ( t ,)

Enfin, la similarité entre les préférences des utilisateurs et leurs articles non lus est calculée par la fonction de similarité cosinus :

Par la suite, TF-IDF est calculé comme une multiplication de TF et IDF :

simtf - idf ( du , dr ) = dr ⋅ du ∣ ∣ dr ∣ ∣ × ∣ ∣ du ∣ ∣ sim_{tf\verb|-|idf(d_u, d_r)} = \frac{d_r \cdot d_u}{|| d_r|| \fois ||d_u||}s je suist f - je f ( tu, r)=r×tudrdtu

Parmi eux, dr d_rdrReprésente le vecteur de préférence de l'utilisateur, du d_udtuReprésente le vecteur de nouvelles non lues. simtf - idf ( du , dr ) sim_{tf\verb|-|idf(d_u, d_r)}s je suist f - je f ( tu, r)Plus la valeur est élevée, plus les nouvelles non lues sont proches des préférences de l'utilisateur. Parmi toutes les news non lues, les news dont la similarité avec le portrait de l'utilisateur est supérieure à une certaine valeur sont recommandées à l'utilisateur correspondant.

dr d_rdrest la représentation vectorielle de l'intérêt de l'utilisateur et du d_udtuest la représentation vectorielle d'une nouvelle non lue. Plus simTF-IDF est grand, plus l'article d'actualité non lu et l'intérêt de l'utilisateur sont similaires. Toutes les actualités non lues qui ont une valeur de similarité avec un profil d'utilisateur supérieure à une certaine valeur seuil sont recommandées à l'utilisateur correspondant.

2.2 Système de recommandation basé sur la fréquence des synonymes

Une méthode similaire à TF-IDF est SF-IDF (Syset Frequency - Inverse Document Frequency; Syset Frequency - Inverse Document Frequency). Cette méthode considère non seulement l'impact des termes, mais considère également les synsets. Le thésaurus est obtenu à partir d'un dictionnaire sémantique de type WordNet. Du fait de l'ambiguïté de sens, un mot peut avoir plusieurs synonymes, il y a donc ambiguïté, par exemple, l'algorithme adaptatif de Lesk (algorithme de Lesk adapté) proposé par [2] et implémenté dans [15].

Une méthode similaire à la méthode TF-IDF est la méthode Synset Frequency - Inverse Document Frequency (SF-IDF) [6]. Cette méthode utilise des ensembles de synonymes (synsets) associés à des termes plutôt que des termes seuls. Les synsets sont fournis par un lexique sémantique tel que WordNet [10]. En raison de l'ambiguïté, un seul terme peut avoir plusieurs synsets, nécessitant ainsi une désambiguïsation du sens des mots, par exemple en utilisant l'algorithme de Lesk adapté proposé dans [2] et implémenté dans [15].

Note du traducteur

WordNet est un dictionnaire sémantique anglais, qui peut obtenir des synonymes et des informations sur les synonymes en ligne. En chinois, il existe également des sites Web similaires, qui peuvent être obtenus auprès de la communauté open source ou sur les sites Web de certaines universités et instituts de recherche.

Le calcul de la valeur SF-IDF et de la similarité cosinus est presque le même que la valeur TF-IDF introduite ci-dessus, sauf que le terme ttt est remplacé par un synonyme s, c'est-à-diresf ( s , d ) = ns , d / Σ knk , d sf(s, d) = {n_{s, d}}/{\Sigma_k{n_{k, d}}}s f ( s ,)=ns ,/ Sknk ,并且idf ( s , d ) = log ∣ D ∣ / ∣ d ∈ D : s ∈ d ∣ idf(s, d) = log{|D|/|d \in D : s \in d|}je d f ( s ,)=l o g / D:sd , alors

La mesure SF-IDF et ses scores de similarité cosinus correspondants sont calculés en utilisant les mêmes équations que celles introduites pour TF-IDF, uniquement en remplaçant le terme ttt par synsetsss , de sorte quesf ( s , d ) = ns , d / Σ knk , d sf(s, d) = n_{s,d}/\Sigma_k{n_{k,d}}s f ( s ,)=ns ,/ Sknk ,et idf ( s , ré ) = log ∣ D ∣ / ∣ ré ∈ D : s ∈ ré ∣ idf(s, d) = log |D| / |d ∈ D : s ∈ d|je d f ( s ,)=l o g / D:sd , et donc

sf - idf ( s , ré ) = sf ( s , ré ) × idf ( s , ré ) sf\verb|-|idf(s, ré) = sf(s, ré) \times idf(s, ré)s f - je f ( s ,)=s f ( s ,)×je d f ( s ,)

Après cela, calculez sim SF - IDF sim_{SF\verb|-|IDF} en utilisant la similarité cosinus définie ci-dessuss je suisS F - I D FC'est ça.

Ensuite, la similarité cosinus précédemment définie est utilisée pour calculer sim SF - IDF sim_{SF\verb|-|IDF}s je suisS F - I D F.

2.3 Systèmes de recommandation basés sur des concepts

Les méthodes de fréquence de document inverse de concept utilisent des concepts de connaissance de domaine pour calculer la similarité, ce qui est différent de l'utilisation directe de termes ou de synsets. Le concept de l'article est passé par le moteur de traitement du langage naturel (NLP, Natural Language Processing). Pour chaque document, les concepts générés sont stockés dans des vecteurs, et ces vecteurs peuvent également être utilisés pour calculer des valeurs CF-IDF. Comme pour TF-IDF et SF-IDF, les valeurs CF-IDF sont calculées comme suit :

La méthode Concept Frequency - Inverse Document Frequency (CF-IDF) [12] calcule des mesures de similarité en utilisant des concepts d'une ontologie de domaine plutôt que des termes ou des synsets. Les concepts d'un article sont obtenus à l'aide d'un moteur de traitement du langage naturel (NLP). Pour chaque document, les concepts résultants sont ensuite stockés dans un vecteur et ces vecteurs peuvent être utilisés pour calculer la mesure CF-IDF. Semblable à TF-IDF et SF-IDF, scores pour le concept ccc sont calculés comme suit :

cf - idf ( c , ré ) = cf ( c , ré ) × idf ( c , ré ) cf\verb|-|idf(c, d) = cf(c, d) \times idf(c, d)c f - je f ( c ,)=c f ( c ,)×je f ( c ,)

À ce stade, les définitions de fréquence de concept et de fréquence de document inverse sont respectivement cf ( c , d ) = nc , d / Σ knk , d cf(c, d) = n_{c,d} / \Sigma_k{n_{k ,d} }c f ( c ,)=nc ,/ Sknk ,idf ( c , d ) = log ∣ D ∣ / ∣ d ∈ D : c ∈ d ∣ idf(c,d) = log|D| / |d \in D : c \in d|je f ( c ,)=l o g / D:cd sim CF − IDF sim_{CF-IDF}s je suisC F I D F 余弦相似度计算保持不变。

where frequencies and inverse document frequencies are defined as c f ( c , d ) = n c , d / Σ k n k , d cf(c, d) = n_{c,d} / \Sigma_k{n_{k,d}} cf(c,d)=nc,d/Σknk,d and i d f ( c , d ) = l o g ∣ D ∣ / ∣ d ∈ D : c ∈ d ∣ idf(c,d) = log|D| / |d \in D : c \in d| idf(c,d)=logD/dD:cd, respectively. Cosine similarity computations remain unchanged for s i m C F − I D F sim_{CF-IDF} s je suisC F I D F.

2.4 Système de recommandation basé sur la relation

SF-IDF et CF-IDF peuvent être étendus avec des synonymes ou des concepts apparentés. A cet effet, d'autres éléments pertinents peuvent être trouvés à partir du lexique sémantique et du terme lui-même.

SF-IDF et CF-IDF peuvent être étendus de manière à ce que les synsets ou concepts apparentés soient également pris en considération. Pour cela, le lexique sémantique et l'ontologie peuvent être utilisés afin de dériver des éléments connexes.

SF-IDF+ [17] pense que les synsets associés sont obtenus par des relations d'association (il existe 27 relations sémantiques uniques, telles que : hyponymie, antonymes, synonymes, etc., qui peuvent être obtenues via WorNet), et ajoutées à SF- Dans le représentation vectorielle de IDF. Pour chaque synonyme, la valeur sf-idf+ correspondante peut être obtenue en multipliant la valeur SF-IDF par le poids prédéfini. Étant donné que les synonymes associés au mot courant ne peuvent jamais être plus importants que le mot courant lui-même, le poids des synonymes varie de 0 à 1. Comme le montre l'équation [7], elle montre comment le synset associé est ajouté au vecteur :

Dans SF-IDF+ [17], les synsets associés sont considérés comme des synsets qui sont connectés par une relation (27 relations sémantiques uniques, par exemple, l'hyponymie, l'antonymie, la synonymie, etc., existent dans WordNet), et sont ajoutés à la représentation vectorielle de SF-IDF. Pour chaque synset, les scores sont calculés en multipliant le score SF-IDF original par un poids prédéfini. Les poids sont toujours compris entre 0 et 1, car les synsets associés ne doivent jamais être plus importants que le synset lui-même. Dans l'éq. 7, il est montré comment les synsets associés sont ajoutés au vecteur :

sf - idf + ( s , ré , r ) = sf ( s , ré ) × idf ( s , ré ) × ω r sf\verb|-|idf\verb|+|(s, ré, r) = sf( s, d) \times idf(s, d) \times \omega_rs F - je F + ( s ,,r )=sf(s,d)×idf(s,d)×ωr

用同样的方式扩展CF-IDF(CF-IDF+ [9])。通过三种关联关系,从内容本身的概念获取相关概念。

The same rules apply also for CF-IDF in its extended form (CF-IDF+ [9]). Related concepts are retrieved by taking into account related ontology concepts by three possible relationships, as a concept can have superclasses, subclasses, and domain-specific related concepts. Similarly, the CF-IDF+ value for a concept c c c and its related concept r r r in document d is computed as follows:

c f - i d f + ( c , d , r ) = c f ( c , d ) × i d f ( c , d ) × ω r cf\verb|-|idf\verb|+|(c, d, r) = cf(c, d) \times idf(c, d) \times \omega_r cf-idf+(c,d,r)=cf(c,d)×idf(c,d)×ωr

此时,用前文所述 c c c r r r 的三种关系之一来表示权重 w r w_r wr。在扩展向量表示中,如果同一关联概念(或同义词)存在多个不同的权重,仅保留最大值。所得向量用于计算用户画像与其未读新闻的余弦相似度。

where w r w_r wr represents the weight assigned to one of the three previously mentioned relationships present between c c c and r r r. If multiple weights are computed for the same concept (or synset), only the highest value is retained in the extended vector representation. The extended vector representation is used for computing the similarity between the user profile and the unread news items using the cosine similarity measure.

译者注

同一个关联概念/同义词可能被多个过个本体概念或内容词项关联,即会在关联概念/同义词集中出现多次,并存在多个不同的关联内容。

2.5 基于命名实体的推荐系统

近期,我们又另外尝试在 Bing-SF-IDF+ [7] 算法中,将 SF-IDF+ 与 来自 Bing 的命名实体信息结合,从而获取符合预期的结果。在这里,通过查询 Bing 搜索引擎,并基于包含相应词项的页面数计算相似度,即使是语义词典未收录的命名实体也将被考虑在内。

Dans des efforts récents, nous avons également essayé de combiner SF-IDF + avec des entités nommées de Bing dans Bing-SF-IDF + [7], qui a montré des résultats prometteurs. Ici, les entités nommées qui ne sont pas couvertes par les synsets d'un lexique sémantique ont tout de même été prises en compte en consultant le moteur de recherche Bing et en calculant les similitudes en fonction du nombre de pages.

Le résultat du calcul est la moyenne pondérée de la similarité SF-IDF+ et Bing, qui est calculée par la mesure de similarité de cooccurrence. De même, nous souhaitons étudier les avantages de Bing appliqués à des concepts (liés).

Les calculs sont basés sur une moyenne pondérée des scores de similarité SF-IDF+ et Bing, où ce dernier est calculé à l'aide d'une mesure de similarité de cooccurrence. De même, nous aimerions étudier les mérites de l'application des entités nommées Bing à des concepts (liés).

2.6 Performances

Les méthodes décrites ci-dessus ont été bien testées au fil des ans. Afin de fournir une valeur de référence, certains d'entre eux ont été testés plusieurs fois dans des conditions différentes. Dans l'ensemble, les performances de chaque méthode (représentées par la valeur F1) sont présentées dans le tableau 1. En général, nous pouvons affirmer que les méthodes basées sur les concepts surpassent les méthodes basées sur la sémantique et les méthodes TF-IDF de base. De plus, la recommandation basée sur les relations a de meilleures performances que les autres recommandations. L'inclusion d'entités nommées permet d'améliorer la qualité des recommandations.

Les méthodes discutées ont été minutieusement testées au fil des ans. Certains ont servi de référence, et ont été testés plusieurs fois dans différentes conditions. Dans l'ensemble, les performances des méthodes (en termes de F1) sont telles que décrites dans le tableau 1. En général, nous pouvons dire que les méthodes basées sur le concept surpassent les méthodes basées sur les synsets et la méthode TF-IDF de base. De plus, les recommandateurs basés sur les relations montrent une amélioration des performances par rapport à leurs homologues habituels. L'inclusion d'entités nommées améliore encore plus la qualité des recommandations.

Tableau 1. Moyenne F 1 F_1F1-mesures pour les recommandataires

algorithme de recommandation μ\mum
TF-IDF 0,449 [7]
SF-IDF 0,468 [6]
CF-IDF 0,485 [12]
SF-IDF+ 0,548 [17]
CF-IDF+ 0,571 [9]
Bing-SF-IDF+ 0,579 [7]

Note du traducteur

μ \mu sous la formeμ représente la valeur F1, qui est une mesure qui prend en compte de manière exhaustive la précision et le rappel.

3 cadres

Nous introduisons les deux étapes suivantes pour améliorer la méthode existante : la similarité Bing est calculée par la similarité ponctuelle des informations des entités nommées Bing ; la valeur CF-IDF+ est calculée par la similarité cosinus basée sur les concepts et les concepts associés. La valeur Bing-CF-IDF+ est la moyenne pondérée de la valeur Bing et de la valeur CF-IDF+. Les utilisateurs peuvent choisir des concepts ou des contenus d'actualité qui les intéressent pour construire des portraits d'utilisateurs, et notre méthode peut extraire des concepts et des entités nommées à partir des portraits construits par les utilisateurs eux-mêmes. Les nouvelles ajoutées sont traitées de la même manière, tout en éliminant les entités nommées déjà couvertes par la connaissance du domaine.

Nous améliorons les méthodes existantes en introduisant une procédure en deux étapes, dans laquelle nous calculons un score de similarité Bing en utilisant des similarités d'informations mutuelles ponctuelles pour les entités nommées Bing, et un score de similarité CF-IDF+ utilisant des similarités cosinus basées sur des concepts et des concepts associés. Les scores Bing-CF-IDF+ sont calculés comme une moyenne pondérée entre les scores Bing et CF-IDF+. Notre approche utilise un profil d'utilisateur, qui peut être construit manuellement par un utilisateur en sélectionnant soit des concepts intéressants, soit des nouvelles intéressantes à partir desquelles des concepts et des entités nommées peuvent être extraits. Les messages d'actualités entrants sont traités de la même manière, tout en éliminant les entités nommées qui sont déjà couvertes par l'ontologie de domaine.

Note du traducteur

Le processus décrit dans la dernière phrase est personnellement compris comme un système de recommandation basé sur la connaissance similaire à celui décrit dans "Recommender System" par Charu.

3.1 Bing

Les systèmes de recommandation basés sur des concepts ne fonctionnent qu'avec des entités nommées qui existent dans la connaissance du domaine. Cependant, dans un article, il peut y avoir plus d'entités nommées en dehors du domaine, et si ces entités nommées ne sont pas prises en compte, toute l'analyse de similarité peut être erronée.

Les méthodes de recommandation basées sur le concept n'utilisent que des entités nommées qui sont incluses dans l'ontologie du domaine. Cependant, il pourrait y avoir beaucoup plus d'entités nommées dans un seul article, qui - si elles n'étaient pas prises en considération - pourraient fausser l'ensemble de l'analyse de similarité. Par conséquent, la mesure de similarité de Bing [7] prend en compte toutes ces entités nommées.

Soit U et R pour désigner les entités nommées et les portraits d'utilisateurs dans les nouvelles non lues, respectivement.

Soit UUU etRRR être des ensembles d'entités nommées dans une actualité non lue et le profil de l'utilisateur :

U = { u 1 , u 2 , . . . , uk } U = \{u_1, u_2, ... , u_k\}tu={ tu1,tu2,. . . ,tuk}

R = { r 1 , r 2 , . . . , rk } R = \{r_1, r_2, ... , r_k\}R={ r1,r2,. . . ,rk}

Nouvelles non lues UUL'entité nommée dans U est ui u_ituje, portrait utilisateur RRLes entités nommées dans R sont rj r_jrje, le nombre de U est kkk , le nombre de R estllje . On définit alorsUUU donneRRLe produit cartésien de R est le suivant :

ui u_itujeest une entité nommée dans l'élément non lu UUU ,rj r_jrjeune entité nommée dans le profil utilisateur RRR etkkk and l l l are the number of named entities in the unread item and the user profile, respectively. Now let us define the set of possible named entity pairs from the unread news item and the user profile by taking their cartesian product:

V = U × R = ( < u 1 , r 1 > , . . . , < u k , r l > ) V = U \times R = (<u_1, r_1>, ... ,<u_k, r_l>) V=U×R=(<u1,r1>,...,<uk,rl>)

随后,用 《Normalized (pointwise) mutual information in collocation extraction》[4] 所述方法计算点互信息共现相似度。用 Bing 分别计算各命名实体单独出现的页面数和命名实体对共现页面数。计算方式是通过 Bing 找到的 Web 页面数。对每个命名实体对而言,相似度即为实际联合概率与期望联合概率之差。命名实体对相似度如下:

Ensuite, nous calculons la mesure de similarité de co-occurrence d'informations mutuelles ponctuelles comme proposé par [4]. Nous recherchons les entités nommées dans une paire séparément et ensemble dans Bing pour construire le nombre de pages. Un nombre de pages est défini comme le nombre de pages Web trouvées par Bing. Pour chaque paire, la similarité est calculée comme la différence entre la probabilité conjointe réelle et la probabilité conjointe attendue. La mesure de similarité pour une paire est définie comme suit :

sim PMI ( u , r ) = logc ( u , r ) N c ( u ) N × c ( r ) N sim_{PMI}(u, r) = log{\frac{\frac{c(u, r) }{N}}{\frac{c(u)}{N} \times \frac{c(r)}{N}}}s je suisP M I( vous ,r )=l o gNc ( u )×Nc ( r )Nc ( u , r )

Note du traducteur

Juste au cas où voici un rappel, log A − log B = log A / B logA - logB = log{A/B}journal A _ _journal B _ _=log A / B . _ _

Parmi eux, c ( u , r ) c(u, r)c ( tu ,r ) représente une paire d'entités nommées( u , r ) (u, r)( vous ,r ) (de Bing) le nombre de pages simultanées. c ( u ) c(u)c ( u ) etc ( r ) c(r)c ( r ) sont des entités nommées uuapparaissant respectivementu et entités nomméesrrrNombre de pages,NNN est le nombre total de pages Web disponibles via Bing. N est estimé à environ 150. Similitude Bingsim B ing sim_{Bing}s je suisB je n gLa définition ressemble à ceci :

c ( u , r ) c(u, r)c ( tu ,r ) est le nombre de pages Bing pour la paire( u , r ) (u, r)( vous ,r ) ,c ( u ) c(u)c ( u ) etc ( r ) c(r)c ( r ) la page compte pour les entités nomméesuutoi etrrr etNNN le nombre total de pages Web pouvant être trouvées par Bing. NNN est estimé à environ 15 milliards. La mesure de similarité Bingsim B ing sim_{Bing}s je suisB je n gest alors défini comme :

sim B ing ( du , dr ) = Σ ( u , r ) ∈ V sim PMI ( u , r ) ∣ V ∣ sim_{Bing}(d_u, d_r) = \frac{\Sigma_{(u, r) \in V}{sim_{PMI}(u, r)}}{|V|}s je suisB je n g( dtu,dr)=V S(u,r)VsimPMI(u,r)

3.2 CF-IDF+

CF-IDF+ 方法用概念和关联概念计算。概念可以是一个类,关联概念则为其子类或超类;它也可以是一个实例,通过领域关系找到其他概念。概念之间的关系包含新闻文章中有价值的信息,并能提高推荐准确率。与 CF-IDF 类似,CF-IDF+方法将新闻项的概念和关系向量化存储。对于 c c c,包含其所有关联概念的新的概念集合定义如下:

La méthode CF-IDF+ utilise des concepts et concepts associés. Un concept peut être une classe, qui peut avoir des superclasses et des sous-classes. Il peut également s'agir d'une instance et faire référence à d'autres concepts à l'aide de relations de domaine. Les relations entre les concepts contiennent des informations précieuses sur un article d'actualité et peuvent donc augmenter la précision des recommandations. Semblable à la méthode CF-IDF, la méthode CF-IDF + stocke les concepts et les concepts associés d'un article d'actualité dans un vecteur. Pour chaque concept ccc , un nouvel ensemble de concepts est défini qui contient tous les concepts liés :

C ( c ) = { c } ∪ r ∈ R ( c ) r ( c ) C(c) = \{c\} \cup_{r \in R(c)} r(c)C ( c )={ c }r R ( c )r ( c )

Parmi eux, ccc est le concept dans la nouvelle,r ( c ) r(c)r ( c ) passe par la relationrrr trouvé conceptccLe concept associatif de c ,R ( c ) R(c)R ( c ) est le conceptccUne collection de relations pour c .

ccc est un concept dans l'actualité,r ( c ) r(c)r ( c ) sont des concepts liés au conceptccc par relationrrr , etR ( c ) R(c)R ( c ) est l'ensemble des relations de conceptccc .

L'ensemble étendu de concepts de tous les éléments d'actualité est fusionné dans le grand ensemble suivant UUU

Les ensembles étendus de concepts pour tous les articles d'actualité sont désormais unifiés en un seul grand ensemble UUU :

U = { C ( u 1 ) , C ( u 2 ) , . . . , C ( um ) } U = \{C(u_1), C(u_2), ... ,C(u_m)\}tu={ C ( u1) ,C ( tu2) ,. . . ,C ( tum) }

Parmi eux, C ( um ) C(u_m)C ( tum) est l'ensemble de concepts étendu d'éléments d'actualitémthm^{th}mle concept étendu

C ( um ) C(u_m)C ( tum) est lemthm^{th}mle concept étendu dans l'ensemble des concepts étendus de l'actualité. Les scores CF-IDF + et leurs similitudes cosinus peuvent être calculés comme introduit précédemment à l'aide des équations. 8 et 4. Si ces scores dépassent une valeur seuil prédéterminée, l'actualité est recommandée à l'utilisateur.

3.3 Bing-CF-IDF+

Nous pouvons calculer la similarité Bing et la similarité CF-IDF+ entre chaque actualité non lue et le profil de l'utilisateur. Bing-CF-IDF est une combinaison pondérée de similarité Bing et de similarité CF-IDF+. Pour la comparabilité mutuelle de la similarité, normalisez entre 0 et 1 avec les valeurs minimum et maximum.

Nous pouvons maintenant calculer les mesures de similarité Bing et CF-IDF+ entre chaque article d'actualité non lu et le profil de l'utilisateur. Bing-CF-IDF+ est une combinaison pondérée des mesures de similarité Bing et CF-IDF+. Pour l'inter-comparabilité des similarités, sim CF − IDF + sim_{CF-IDF+}s je suisC F I D F +et sim B ing ( du , dr ) sim_{Bing}(d_u, d_r)s je suisB je n g( dtu,dr) sont normalisés à l'aide d'une échelle min-max comprise entre 0 et 1 :

sim CF − IDF + ( du , dr ) = sim CF − IDF + ( du , dr ) − minusim CF − IDF + ( du , dr ) maxusim CF − IDF + ( du , dr ) − minusim CF − IDF + ( du , dr ) sim_{CF-IDF+}(d_u,d_r) = \frac{sim_{CF-IDF+}(d_u, d_r) - min_usim_{CF-IDF+}(d_u, d_r)}{max_u sim_{CF-IDF+} (d_u, d_r) - min_usim_{CF-IDF+}(d_u, d_r)}s je suisC F I D F +( dtu,dr)=ma x _tus je suisC F I D F +( dtu,dr)m je ntus je suisC F I D F +( dtu,dr)s je suisC F I D F +( dtu,dr)m je ntus je suisC F I D F +( dtu,dr)

sim B ing ( du , dr ) = sim B ing ( du , dr ) − minusim B ing ( du , dr ) maxusim B ing ( du , dr ) − minusim B ing ( du , dr ) sim_{Bing}(d_u, d_r) ​​= \frac{sim_{Bing}(d_u, d_r) - min_usim_{Bing}(d_u, d_r)}{max_u sim_{Bing}(d_u, d_r) - min_usim_{Bing}(d_u, d_r)}s je suisB je n g( dtu,dr)=ma x _tus je suisB je n g( dtu,dr)m je ntus je suisB je n g( dtu,dr)s je suisB je n g( dtu,dr)m je ntus je suisB je n g( dtu,dr)

Note du traducteur

Il est mentionné ici que "... normalisé en utilisant une mise à l'échelle min-max entre 0 et 1...", la traduction littérale est "à l'échelle... entre 0 et 1 avec le minimum et le maximum". Ce processus décrit en fait la normalisation min-max. Certains documents le traduisent par "normalisation minimum-maximum", et certains le traduisent par "mise à l'échelle min-max (mise à l'échelle min-max)". est une méthode de mise à l'échelle des fonctionnalités. La plage habituelle est [0, 1] ou [-1, 1].

du d_udtuet dr d_rdrreprésentent respectivement des articles d'actualité non lus et des portraits d'utilisateurs. La moyenne pondérée des deux est Bing-CF-IDF+ similarité sim B ing − CF − IDF + ( du , dr ) sim_{Bing-CF-IDF+}(d_u, d_r)s je suisB je n g C F je F +( dtu,dr)

du d_udtuet dr d_rdrsont respectivement une actualité non lue et le profil de l'utilisateur. La mesure de similarité Bing-CF-IDF+ sim B ing − CF − IDF + ( du , dr ) sim_{Bing-CF-IDF+}(d_u, d_r)s je suisB je n g C F je F +( dtu,dr) est calculé en prenant une moyenne pondérée sur les deux similarités :

s i m B i n g − C F − I D F + ( d u , d r ) = α × s i m B i n g + ( 1 − α ) × s i m C F − I D F + sim_{Bing-CF-IDF+}(d_u, d_r) = \alpha \times sim_{Bing} + (1 - \alpha) \times sim_{CF-IDF+} simBingCFIDF+(du,dr)=α×simBing+(1α)×simCFIDF+

其中,在训练集上进行网格搜索对 α \alpha α 优化。当相似度超出预定义阈值 t t t 时,推荐新闻项。请注意,这里只考虑找不到的表示概念的命名实体。

where α \alpha α is optimized using a grid search optimization on the training set. Again a news item is recommended when the similarity measures exceeds the predefined threshold value t t t. Please note that only named entities that are not found as denoting concepts are considered here.

3.4 执行

Bing-CF-IDF+ 推荐系统应用于 Hermes 框架 [11],这是基于 Java 的用语义 Web技术实现的个性化新闻服务。Hermes 抓取了用户查询记录和新闻项的RSS源,并提供多种推荐方法,这些推荐方法使用存储了领域概念的内部知识库。Hermes 基于用户画像提供的推荐结果,用户画像则由相应浏览记录构建。Hermes 包含多个用于扩展基础功能的插件。Athena 插件用内部OWL领域知识进行分类并推荐新闻项 [13]。除了几个基于概念的推荐方法,Athena 还另外提供用户画像构建工具,以许可用户在可视化的知识图谱中,选择相关主题。Ceryx 插件 [6] 作为 Athena 的扩展。与 Athena 类似,Ceryx 也使用用户画像执行任务。然而,关于查找相关新闻项的算法有些许不同。除了对词项和概念分类,Ceryx 还能理解单词的意义。因此,Ceryx 能像 SF-IDF+ 和 CF-IDF+ 一样执行推荐过程。Bing-CF-IDF+ 推荐系统也是为了 Ceryx 编写的。

L'outil de recommandation Bing-CF-IDF+ est implémenté dans le framework Hermes [11], qui est un service de personnalisation de nouvelles basé sur Java utilisant les technologies du Web sémantique. Hermes ingère les requêtes des utilisateurs et les flux RSS d'articles d'actualité, et prend en charge plusieurs méthodes de recommandation à l'aide d'une base de connaissances interne pour stocker les concepts ontologiques. Hermes fournit des recommandations basées sur des profils d'utilisateurs construits en fonction du comportement de navigation. Hermes contient plusieurs plugins qui étendent les fonctionnalités de base. Le plug-in Athena classe et recommande les articles d'actualité à l'aide d'une ontologie de domaine interne OWL [13]. Outre plusieurs méthodes de recommandation basées sur des concepts, Athena prend en charge un générateur de profil supplémentaire, dans lequel un utilisateur est autorisé à sélectionner des sujets pertinents dans un graphique de connaissances visuel. Le plug-in Ceryx [6] est une extension d'Athena. Tout comme Athéna, Ceryx fonctionne avec un profil utilisateur. Cependant, l'algorithme pour trouver des articles d'actualité connexes est légèrement différent. Outre la classification des termes et des concepts, Ceryx détermine également le sens des mots. Par conséquent, Ceryx est capable de gérer des méthodes de recommandation telles que SF-IDF+ et CF-IDF+. L'outil de recommandation Bing-CF-IDF+ est également écrit pour Ceryx.

4 évaluation

Pour évaluer le nouvel algorithme Bing-CF-IDF+, nous le comparons avec d'autres alternatives basées sur des concepts, telles que : CF-IDF et CF-IDF+, et les documents TF-IDF traditionnels. Ce chapitre commence par décrire la configuration expérimentale en ce qui concerne les données et les mesures de performance. Ensuite, les poids des relations sémantiques et leurs propriétés sont discutés. Enfin, comparez les performances entre les algorithmes.

Afin d'évaluer les performances de la méthode Bing-CF-IDF+ nouvellement proposée, nous la comparons avec ses alternatives basées sur le concept, c'est-à-dire CF-IDF et CF-IDF+, ainsi qu'avec la ligne de base TF-IDF. Cette section commence par élaborer sur la configuration expérimentale concernant les données et les mesures de performance. Ensuite, les poids des relations sémantiques et leurs propriétés sont discutés. Enfin, les mesures de performance sont comparées.

4.1 Outils d'essai

L'ensemble de données est divisé au hasard en ensemble d'apprentissage (60 %) et ensemble de test (40 %). Tout d'abord, ajoutez les actualités qui intéressent l'utilisateur à partir de l'ensemble de formation pour créer des portraits d'utilisateurs. Le poids optimal est déterminé par l'ensemble de vérification, et l'ensemble de vérification est obtenu en divisant l'ensemble d'apprentissage, c'est-à-dire que l'ensemble d'apprentissage est divisé en un ensemble de vérification et un ensemble d'apprentissage de taille égale. Nous nous retrouvons avec trois ensembles différents : ensemble de validation (30 %), ensemble d'apprentissage (30 %) et ensemble de test (40 %). Les ensembles de validation et de test sont constitués d'articles d'actualité non lus. Vous pouvez d'abord utiliser le jeu de validation pour déterminer les pondérations optimales, puis utiliser le jeu de test pour calculer les performances.

L'ensemble de données est divisé aléatoirement en un ensemble d'apprentissage et un ensemble de test, avec respectivement 60% et 40% des données. Tout d'abord, un profil d'utilisateur est créé en ajoutant les actualités intéressantes de l'ensemble de formation. Les poids optimaux sont déterminés en utilisant un ensemble de validation qui est créé en divisant l'ensemble d'apprentissage en deux ensembles de taille égale, c'est-à-dire un ensemble de validation et un ensemble d'apprentissage. Nous finissons par avoir trois ensembles différents : un ensemble de validation (30 %), un ensemble d'apprentissage (30 %) et un ensemble de test (40 %). L'ensemble de validation et l'ensemble de test sont considérés comme étant constitués d'articles d'actualité « non lus ». L'ensemble de validation peut maintenant être utilisé pour déterminer les poids optimaux, nécessaires pour calculer les mesures de performance en utilisant l'ensemble de test ultérieurement.

Comme mentionné précédemment, le système de recommandation CF-IDF+ calcule la similarité pour chaque article d'actualité. Si la similarité est supérieure à une valeur critique spécifique, des articles d'actualité non lus correspondants peuvent être recommandés aux utilisateurs correspondants. Les recommandations peuvent être classées comme vrai positif (TP), faux positif (FP), vrai négatif (TN) ou faux négatif (FN). Les métriques de recherche d'informations peuvent être choisies à partir de cette matrice de confusion : précision, rappel (sensibilité) et spécificité. De plus, nous pouvons en déduire la valeur F1 (en utilisant la moyenne harmonique de la précision et du taux de rappel) et la courbe ROC (taux de vrais positifs ou sensibilité obtenue par opération inverse du taux de faux positifs ou 1 moins la sensibilité). Enfin, nous vérifions si la capacité de classification est supérieure à la supposition aléatoire en calculant la statistique Kappa [8]. Les paramètres des relations sémantiques sont optimisés individuellement par un processus incrémental, optimisant la valeur F1 globale. De plus, déterminer le poids α \alpha de Bing et CF-IDF+Le paramètre alpha est également optimisé de manière similaire.

Comme indiqué précédemment, le recommandeur CF-IDF+ calcule des mesures de similarité pour chaque article d'actualité non lu. Dans le cas où cette mesure de similarité dépasse une certaine valeur seuil, l'article d'actualité non lu est recommandé à l'utilisateur. Les résultats des recommandataires peuvent être classés pour les articles d'actualité en tant que vrais positifs (TP), faux positifs (FP), vrais négatifs (TN) ou faux négatifs (FN). Une sélection de métriques de recherche d'informations peut être déduite de cette matrice de confusion : précision, rappel (sensibilité) et spécificité. De plus, nous pouvons déduire les scores F1 (c'est-à-dire la moyenne harmonique de précision et de rappel) et la courbe ROC (c'est-à-dire le taux de vrais positifs ou la sensibilité tracée par rapport au taux de faux positifs ou 1 - spécificité) à partir de ces mesures. Enfin, nous calculons la statistique Kappa [8] pour vérifier si la puissance de classification est supérieure à une estimation aléatoire. Les paramètres des relations sémantiques sont optimisés individuellement par une procédure incrémentale, optimisant les scores F1 globaux. De plus, le paramètre α qui détermine le poids des pièces Bing et CF-IDF+ est optimisé de la même manière.

Table 2. Amount of interesting (I+) and non-interesting (I−) news items, and the inter-annotator agreement (IAA)

Topic I+ I- IAA
Asia or its countries 21 79 99%
Financial markets 24 76 72%
Google or its rivals 26 74 97%
Web services 26 74 94%
Microsoft or its rivals 29 71 98%
National economies 33 67 90%
Technology 29 71 87%
United States 45 55 85%

Table 3. Mean and variance for the parameters of the Bing-CF-IDF+ recommender

w s u p e r w_{super} wsuper w s u b w_{sub} wsub w r e l w_{rel} wrel α \alpha α
$ \mu $ 0.426 0.384 0.523 0.170
σ 2 \sigma^2 σ2 0.135 0.120 0.103 0.020

4.2 参数优化

对于每个临界值, 以 0.01 为步进值(增量),以此优化超类、子类、领域关系的权重参数,同时,平衡两个相似性度量的 α \alpha α。结果如 Table 3 所示,计算了这些参数的均值和方差。

For each cut-off value, with an increment of 0.01, we optimize the weight parameters for superclass, subclass, and domain relationships, and the α α α that balances the two similarity measures. The results are displayed in Table 3, where the mean and variance of each of these parameters are computed.

通常,必应相似度比 CF-IDF+ 权重更低,表明 Bing 的输入值比语义关系对我们的推荐系统影响更低。这表明一个事实:概念比命名实体包含更多信息。此外,266个已识别的命名实体中,有44个出现在我们已使用的领域知识中,这表明丢失了20%的可用命名实体。尽管如此, α \alpha α 值也大于0,因此,在推荐方法中使用 Bing 的命名实体是有用的。至于语义关系,在均值方面,领域关系中的概念($ w_{rel}$)似乎比子类、超类中的概念(分别为 w s u b w_{sub} wsub w s u p e r w_{super} wsuper)更重要,同时,通过超类中的概念比子类关系得到的概念更重要。这符合 [9] 的研究成果,也符合我们的预期——因为,对于用户感兴趣的物品,超类提供了更泛化的一般信息,而子类只是用户兴趣更进一步的具现。

On average, the Bing similarity measure has a lower weight than the CF-IDF+ measure, indicating that input from Bing has a lower impact on our recommender than the semantic relationships. This can be explained by the fact that concepts contain more informational value than named entities. Moreover, 44 out of 266 identified named entities appear in our employed ontology, indicating a loss of 20% of the available named entities. Nonetheless, α α α is greater than zero, and thus there is a use to employing named entities from Bing in the recommendation method. As for the semantic relationships, on average, concepts retrieved through domain relationships seem ( w r e l w_{rel} wrel) to be more important than sub- and superclasses ( w s u b w_{sub} wsub and w s u p e r w_{super} wsuper, respectively), and concepts retrieved through superclasses are more important than those deduced from subclass relations. This corresponds to the results of [9], and match our expectations, as superclasses give more general information about the topic of interest whereas subclasses risk to be too specific.

译者注

最后一句,按照个人理解意译了。

4.3 测试结果

现在,确定了每个临界值的最优值,我们可以计算全局精度、召回率和 F1 值。Table 4 展示了没饿个推荐系统的 F1 值的均值,强调一下,Bing-CF-IDF+ 比其他推荐系统表现更好。实际上,推荐系统越复杂,平均性能越好。如 Table 5 所示,除 CF-IDF 优于 TF-IDF 外,所有改进都是有效的。

Maintenant que les valeurs optimales des paramètres sont déterminées pour chaque valeur seuil, nous pouvons calculer la précision globale, le rappel et les mesures F1. Le tableau 4 affiche les scores F1 moyens pour chaque recommandataire, soulignant que Bing-CF-IDF+ surpasse les autres recommandataires. En fait, plus l'outil de recommandation est complexe, meilleures sont les performances moyennes. Comme le montre le tableau 5, toutes les améliorations sont significatives, à l'exception de CF-IDF par rapport à TF-IDF.

Nos observations sont présentées sur la figure 1a. D'après le graphique, il est clair que Bing-CF-IDF+ surpasse les autres systèmes de recommandation sur toute la gamme des seuils. Dans la plage de seuil bas, TF-IDF est plus performant que CF-IDF et CF-IDF+ (rappel inférieur aux attentes et précision supérieure aux attentes). En raison de la nature de la variante CF-IDF, ce résultat est attendu, car lors de l'utilisation de concepts plutôt que de termes (ou d'entités nommées), nous adoptons une approche plus stricte de la correspondance (termes d'intérêt de l'utilisateur) avec un plus petit nombre de fonctionnalités.

Nos observations sont également étayées par la Fig. 1a. D'après le graphique, il est évident que, sur toute la plage de valeurs seuils, Bing-CF-IDF+ surpasse systématiquement les autres recommandations. Le TF-IDF est plus performant pour les valeurs seuils inférieures (c'est-à-dire un rappel attendu plus élevé et une précision attendue plus faible) que le CF-IDF et le CF-IDF+. En raison de la nature des variantes CF-IDF, il s'agit d'un résultat attendu, car lors de l'utilisation de concepts plutôt que de termes (ou d'entités nommées d'ailleurs), nous appliquons une approche beaucoup plus restreinte avec une quantité très limitée de jetons (concepts) à match sur.

La Fig. 1b et la Fig. 1c reflètent également ce point. Ces graphiques montrent également que bien que le rappel de Bing-CF-IDF+ soit similaire à celui de CF-IDF+, la précision de Bing-CF-IDF+ est significativement supérieure à celle de CF-IDF+. Par conséquent, l'introduction de relations sémantiques semble améliorer le rappel, tandis que l'introduction supplémentaire d'entités nommées Bing pour améliorer la précision n'a pas affecté le rappel de CF-IDF.

Ceci est également représenté sur les figures 1b et 1c. Ces chiffres montrent également que, bien que le rappel pour Bing-CF-IDF+ et CF-IDF+ soit très similaire, la précision de BingCF-IDF+ s'améliore nettement par rapport à CF-IDF+. Le rappel pour CF-IDF (et TF-IDF) est beaucoup plus faible. Par conséquent, il semble que l'ajout de relations sémantiques améliore le rappel, et l'inclusion supplémentaire d'entités nommées Bing améliore la précision, sans faire de concessions au rappel de CF-IDF.

Ensuite, nous évaluons les courbes caractéristiques de fonctionnement du récepteur (courbes ROC) des méthodes proposées Bing-CF-IDF+, CF-IDF+, CF-IDF et TF-IDF. La courbe ROC est illustrée à la Fig. 2, et le taux de faux positifs de Bing-CF-IDF+ et CF-IDF+ est meilleur que celui de CF-IDF et TF-IDF. Cela montre que Bing-CF-IDF+ et CF-IDF+ sont plus capables de supprimer les faux positifs dans les cas plus complexes, avec un rappel plus élevé (taux de vrais positifs) et une plus grande précision. Cependant, au niveau macro de l'élément, il n'y a qu'une légère différence (environ 0,85) dans l'aire des courbes entre les différents systèmes de recommandation. Bing-CF-IDF+ a une précision supérieure et un rappel inférieur à TF-IDF.

Ensuite, nous évaluons les courbes ROC (Receiver Operating Characteristic) pour les recommandations Bing-CF-IDF+, CF-IDF+, CF-IDF et TF-IDF. La courbe ROC de la Fig. 2 montre que les Bing-CF-IDF+ et CF-IDF+ surpassent CFIDF et TF-IDF pour de faibles taux de faux positifs. Cela indique que le rappel (taux de vrais positifs) est plus élevé pour (Bing-)CF-IDF+ dans des situations plus difficiles contre une poignée de faux positifs, c'est-à-dire une plus grande précision. Cependant, à grande échelle, les aires sous la courbe ne diffèrent que légèrement entre les recommandants (la valeur est d'environ 0,85). Ceci est conforme à la précision plus élevée et au rappel inférieur de Bing-CF-IDF+ par rapport à TF-IDF.

Note du traducteur

Ici, l'auteur a dit beaucoup de choses, en résumé, selon la figure 2, nous pouvons savoir que Bing-CF-IDF + et CF-IDF + ont une précision supérieure et un rappel inférieur à CF-IDF et TF-IDF (erreur moins susceptible d'être jugée ).

最后,我们通过计算 Kappa 统计判断推荐系统分类是否优于随机猜测分类。其值越高,表明分类效果越好。不同临界值的 Kappa 统计如 Fig. 3 所示。由图可知,Bing-CF-IDF+ 推荐方法的 Kappa 统计比其他三个推荐方法的 Kappa 统计更高。只有临界值为0.25时,Bing-CF-IDF+ 的系数与 TF-IDF 类似,并且临界值为0.70时与 CF-IDF+ 一致。因为 Bing-CF-IDF+ 推荐方法的 Kappa 统计整体而言明显较高,因此,我们可以说,整体而言,Bi那个-CF-IDF+拥有比 CF-IDF+,CF-IDF 和 TF-IDF 推荐方法更好的分类能力。

Last, we compute the Kappa statistic to measure whether the proposed classifications made by the recommender are better than classification made by a random guess. Higher values indicate more classification power, and are preferred. In Fig. 3, the results of the Kappa statistic can be found for varying cut-off values. The plot shows that overall, the Kappa statistic of the BingCF-IDF+ recommender is higher than the Kappa statistic of the other three recommenders. Only for a cut-off value of 0.25, the statistics of the Bing-CF-IDF+ and the TF-IDF are similar, and for cut-off value 0.70 the statistics of the Bing-CF-IDF+ and the CF-IDF+ are alike. Because the Bing-CF-IDF+ recommender clearly has higher values for the Kappa statistic over all cut-off values, we can state that overall, the Bing-CF-IDF+ has more classification power than the CF-IDF+, CF-IDF, and TF-IDF recommenders.

Fig. 1. Précision globale, rappel et scores F1 pour les recommandataires

Fig. 2. Courbe ROC des recommandeurs

Fig. 3. Statistiques Kappa pour les recommandataires

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lk51CqRz-1589347021601)(image-20200513103222972.png)]

5 résumé

Dans des travaux antérieurs, de nouveaux algorithmes de recommandation ont émergé. Le TF-IDF traditionnel basé sur les mots est amélioré par des méthodes telles que SF-IDF prenant en compte les synsets dans le lexique sémantique et CF-IDF prenant en compte les concepts de la connaissance du domaine. CF-IDF+ correspond également au contenu des articles d'actualité en fonction de concepts connexes tels que les sous-classes et les superclasses. Cependant, lorsqu'une entité nommée est ignorée par la connaissance du domaine, elle n'apparaîtra pas dans les résultats de la recommandation. Par conséquent, nous introduisons la similarité Bing-CF-IDF+, qui ajoute deux étapes à la valeur de similarité de la recherche Web Bing des entités nommées sur la base de la mesure de similarité CF-IDF+.

In previous work, several new recommendation methods have been proposed. The traditional term-based TF-IDF was improved by methods like SF-IDF and CF-IDF, which take into account synsets from a semantic lexicon and concepts from a domain ontology, respectively. The CF-IDF+ similarity measure also matches news items based on related concepts like sub- and superclasses. However, named entities are not fully covered in recommendations whenever they are omitted in the domain ontology. Therefore, we have introduced the BingCF-IDF+ similarity measure, which is a two-step procedure that extends the CF-IDF+ similarity measure with Bing Web search similarity scores for named entities.

为了评估新的 Bing-CF-IDF+ 推荐系统的性能,我们已经优化了 Bing 和 CF-IDF+ 中,概念间的语义关联性的权重。语义关系、基于概念和基于命名实体的推荐系统的参数使用网格搜索(grid search)优化,以最大化每个临界值的全局 F 1 F1 F1 值,即,最小值新闻项被推荐的最小值(可能性)。我们已经用100条金融新闻项和8个用户画像测试 Bing-CF-IDF+ 的性能。我们评估结果表明,Bing-CF-IDF+ 相似性度量在 F 1 F1 F1 值和 Kappa 统计方面,优于 TF-IDF、CF-IDF 和 CF-IDF+。

In order to evaluate the performance of the new Bing-CF-IDF+ recommender, we have optimized the weights for the semantic relationships between the concepts and for the Bing and CF-IDF+ recommenders themselves. These parameters are optimized using a grid search for both the semantic relationships and the concept-based and named entity-based recommenders, while maximizing the global F 1 F1 F 1 -mesure par valeur seuil, c'est-à-dire le score minimum pour qu'une actualité soit recommandée. Nous avons testé les performances de Bing-CF-IDF+ par rapport aux recommandateurs existants sur 100 articles d'actualité financière et 8 profils d'utilisateurs. Dans notre évaluation, nous avons montré que la mesure de similarité Bing-CF-IDF+ surpasse TF-IDF, CF-IDF et CF-IDF+ en termes de F1 F1Mesure F 1 et statistique Kappa.

Nous envisageons une variété d'orientations de travail futures. L'optimisation des paramètres a maintenant été effectuée avec une recherche de grille incrémentielle. Les stratégies peuvent également être affinées à l'aide d'algorithmes tels que l'évolution génétique. De plus, nous souhaitons étudier de plus grandes collections de relations. Maintenant, nous avons considéré les superclasses et les sous-classes immédiates. Mais il est également utile de supposer des superclasses indirectes et des sous-classes de concepts. Enfin, une évaluation plus approfondie et faisant autorité basée sur une plus grande collection d'articles d'actualité reflétera mieux les performances puissantes de Bing-CF-IDF+.

Nous envisageons diverses directions pour les travaux futurs. L'optimisation des paramètres a été effectuée à l'aide d'une recherche de grille incrémentielle. Cela pourrait être amélioré en appliquant des stratégies d'optimisation plus avancées, telles que des algorithmes génétiques. De plus, nous aimerions étudier une plus grande collection de relations. Maintenant, nous avons considéré les super et sous-classes directes, mais hypothétiquement, les super et sous-classes non directes de concepts pourraient également être utiles. Enfin, une évaluation plus approfondie et plus puissante basée sur un ensemble plus large d'articles d'actualité soulignerait davantage les bonnes performances de Bing-CF-IDF+.

Note du traducteur

网格搜索(grid-search)是一种调参手段。是枚举搜索的一种。比如,一个模型有两个参数,分别为 A 和 B,列出A的所有可能和B的所有可能,各自代表一个维度,则可以得到一个二维表,表中每一个元素都是一种可能性。此时,网格搜索的方法是,遍历这个表,将所有参数组合情况依次代入模型中,以计算各个组合情况的的性能,可以得到至少一种性能最高的参数组合情况。推荐参考:https://www.jiqizhixin.com/graph/technologies/0b250c7d-d9ad-4c03-8503-c0b9e82685a3。

参考文献

  1. Adomavicius, G., Tuzhilin, A.: Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE Transactions on Knowledge and Data Engineering 17(6), 734–749 (2005)
  2. Banerjee, S., Pedersen, T.: An adapted Lesk algorithm for word sense disambiguation using WordNet. In: Gelbukh, A.F. (ed.) 4th International Conference on Computational Linguistics and Intelligent Text Processing (CICLING 2002). Lecture Notes in Computer Science, vol. 2276, pp. 136–145. Springer (2002)
  3. Bing : API Bing 2.0. Papier blanc. De : http://www.bing.com/developers/s/APIBasics.html (2018)
  4. Bouma, G. : Information mutuelle normalisée (point par point) dans l'extraction de collocation. Dans : Chiarcos, C., de Castilho, RE, Stede, M. (eds.) Conférence biennale GSCL 2009 (GSCL 2009). p. 31–40. Gunter Narr Verlag Tubingen (2009)
  5. Burke, R. : Systèmes de recommandation hybrides : enquête et expériences. Modélisation de l'utilisateur et interaction adaptée à l'utilisateur 12(4), 331–370 (2002)
  6. Capelle, M., Moerland, M., Frasincar, F., Hogenboom, F. : recommandation de nouvelles basée sur la sémantique. Dans : Akerkar, R., B˘adic˘a, C., Dan Burdescu, D. (eds.) 2nd International Conference on Web Intelligence, Mining and Semantics (WIMS 2012). ACM (2012)
  7. Capelle, M., Moerland, M., Hogenboom, F., Frasincar, F., Vandic, D.: Bing-SFIDF+: A hybrid semantics-driven news recommender. In: Wainwright, R.L., Corchado, J.M., Bechini, A., Hong, J. (eds.) 30th Symposium on Applied Computing (SAC 2015), Web Technologies Track. pp. 732–739. ACM (2015)
  8. Cohen, J.: A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20(1), 37–46 (1960)
  9. de Koning, E., Hogenboom, F., Frasincar, F.: News recommendation with CFIDF+. In: Krogstie, J., Reijers, H.A. (eds.) 30th International Conference on Advanced Information Systems Engineering (CAiSE 2018). Lecture Notes in Computer Science, vol. 10816, pp. 170–184. Springer (2018)
  10. Fellbaum, C.: WordNet: An Electronic Lexical Database. MIT Press (1998)
  11. Frasincar, F., Borsje, J., Levering, L. : Une approche basée sur le Web sémantique pour créer des services d'information personnalisés. Journal international de recherche sur les affaires électroniques 5 (3), 35–53 (2009)
  12. Goossen, F., IJntema, W., Frasincar, F., Hogenboom, F., Kaymak, U. : Personnalisation des actualités à l'aide du système de recommandation sémantique CF-IDF. Dans : Akerkar, R. (éd.) Conférence internationale sur l'intelligence Web, l'exploitation minière et la sémantique (WIMS 2011). ACM (2011)
  13. IJntema, W., Goossen, F., Frasincar, F., Hogenboom, F.: Ontology-based news recommendation. In: Daniel, F., Delcambre, L.M.L., Fotouhi, F., Garrig´os, I., Guerrini, G., Maz´on, J.N., Mesiti, M., M¨uller-Feuerstein, S., Trujillo, J., Truta, T.M., Volz, B., Waller, E., Xiong, L., Zim´anyi, E. (eds.) International Workshop on Business intelligencE and the WEB (BEWEB 2010) at 13th International Conference on Extending Database Technology and Thirteenth International Conference on Database Theory (EDBT/ICDT 2010). ACM (2010)
  14. Jannach, D., Resnick, P., Tuzhilin, A., Zanker, M.: Recommender systems - beyond matrix completion. Communications of the ACM 59(11), 94–102 (2016)
  15. Jensen, A.S., Boss, N.S.: Textual Similarity: Comparing Texts in Order to Discover How Closely They Discuss the Same Topics. Bachelor’s Thesis, Technical University of Denmark (2008)
  16. Jones, KS : Une interprétation statistique de la spécificité des termes et de son application dans
    la récupération. Journal de documentation 28(1), 11–21 (1972)
  17. Moerland, M., Hogenboom, F., Capelle, M., Frasincar, F. : Recommandation de nouvelles basée sur la sémantique avec SF-IDF+. Dans : Camacho, D., Akerkar, R., Rodríguez-Moreno, MD (eds.) 3e Conférence internationale sur l'intelligence Web, l'exploitation minière et la sémantique (WIMS 2013). ACM (2013)
  18. Robal, T., Haav, H., Kalja, A.: Making Web users’ domain models explicit by applying ontologies. In: Hainaut, J., Rundensteiner, E.A., Kirchberg, M., Bertolotto, M., Brochhausen, M., Chen, Y.P., Cherfi, S.S., Doerr, M., Han, H., Hartmann, S., Parsons, J., Poels, G., Rolland, C., Trujillo, J., Yu, E.S.K., Zim´anyi, E. (eds.) Advances in Conceptual Modeling - Foundations and Applications, ER 2007 Workshops CMLSA, FP-UML, ONISW, QoIS, RIGiM, SeCoGIS. Lecture Notes in Computer Science, vol. 4802, pp. 170–179. Springer (2007)
  19. Robal, T., Kalja, A.: Conceptual Web users’ actions prediction for ontology-based browsing recommendations. In: Papadopoulos, G.A., Wojtkowski, W., Wojtkowski, W.G., Wrycza, S., Zupancic, J. (eds.) 17th International Conference on Information Systems Development (ISD 2008). pp. 121–129. Springer (2010)
  20. Robal, T., Kalja, A.: Applying user domain model to improve Web recommendations. In: Caplinskas, A., Dzemyda, G., Lupeikiene, A., Vasilecas, O. (eds.) Databases and Information Systems VII - Selected Papers from the Tenth International Baltic Conference (DB&IS 2012). Frontiers in Artificial Intelligence and Applications, vol. 249, pp. 118–131. IOS Press (2013)
  21. Salton, G., Buckley, C.: Term-weighting approaches in automatic text retrieval. Information Processing and Management 24(5), 513–523 (1988)
  22. Sekine, S., Ranchhod, E. (eds.): Named Entities: Recognition, clasification and use. John Benjamins Publishing Company (2009)

Je suppose que tu aimes

Origine blog.csdn.net/qq_23937195/article/details/106096188
conseillé
Classement