Le rapport sur le modèle mondial Tsinghua est publié, Wenxin se classe premier en chinois, chinois et mathématiques

[Aperçu de diffusion en direct] Les grands modèles remplaceront-ils les programmeurs ? "

Récemment, le cadre d'évaluation complète des capacités du grand modèle SuperBench développé par le centre de recherche sur les modèles de base de l'université Tsinghua et le laboratoire Zhongguancun a officiellement publié la version de mars 2024 du « Rapport d'évaluation complète des capacités du grand modèle SuperBench » . L'évaluation a porté sur un total de 14 modèles représentatifs au pays et à l'étranger .Les résultats ont montré que Wenxinyiyan 4.0 fonctionnait bien et était proche du niveau des modèles internationaux de première classe, et l'écart s'est progressivement réduit .

Par exemple, dans l'évaluation de la capacité d'alignement humain , Wenxinyiyan 4.0 a obtenu de bons résultats et s'est classé premier dans le pays. Dans l'évaluation du raisonnement chinois et de la langue chinoise, Wenxinyiyan était loin devant, avec un écart évident par rapport aux autres modèles de compréhension du chinois Wen . Xin Yi Yan 4.0 a une nette avance, menant la deuxième place du GLM-4 de 0,41 point . Les modèles de la série GPT-4 fonctionnent mal, se classant au milieu et en bas, et ont plus de 0 point de retard sur le premier Wen Xin Yi Yan. 4,0 points .

En termes de capacité mathématique en compréhension sémantique , Wenxinyiyan 4.0 et Claude-3 se classent au premier rang mondial ; les modèles de la série GPT-4 se classent quatrième et cinquième , et les scores des autres modèles sont concentrés autour de 55 points , nettement derrière le premier échelon ; En termes de capacité de compréhension écrite en compréhension sémantique, Wenxinyiyan 4.0 a dépassé GPT-4 Turbo, Claude-3 et GLM-4 pour prendre la première place.

En termes d'évaluation de la sécurité, qui est la plus importante pour les entreprises lors du choix de grands modèles, le modèle domestique Wenxinyiyan 4.0 a réalisé de brillants résultats, battant les modèles de classe mondiale de la série GPT-4 et Claude-3 pour obtenir le score le plus élevé (89,1 points Claude). - 3 se classe seulement quatrième.

Il convient de noter que Wen Xinyiyan est non seulement excellent en termes de capacités techniques, mais qu'il ouvre également la voie à la mise en œuvre d'applications. Depuis le lancement de Wen Xin Yi Yan le 16 mars de l'année dernière , le nombre d'utilisateurs a dépassé les 200 millions et le nombre d'appels API quotidiens a également dépassé les 200 millions .

Dans la « Bataille des 100 modèles » 2023 , les grands modèles nationaux s'affronteront férocement . Qui est le vrai leader ? Bien qu'il existe plusieurs listes d'évaluation des capacités des modèles au pays et à l'étranger, leur qualité est inégale et leurs classements varient considérablement. Lorsque nous regardons la liste à titre de référence, nous devons lire davantage d'évaluations d'institutions et d'universités faisant autorité pour fournir un jugement scientifique pour la sélection de grands modèles .

Le rapport sur le modèle mondial Tsinghua est publié, Wenxin se classe premier en chinois, chinois et mathématiques

Je suppose que tu aimes