Comment une entreprise forme-t-elle son propre grand modèle ?

Aujourd’hui, les grands modèles de langage d’IA sont devenus la clé du développement futur. Les entreprises technologiques nationales et étrangères ont commencé à développer de manière indépendante de grands modèles exclusifs.

Qu’est-ce qu’un grand modèle de langage ? Il s'agit d'un algorithme d'apprentissage autonome qui a diverses fonctions telles que la synthèse, la traduction et la génération de texte. Il peut créer du contenu de rédaction indépendamment sans contrôle humain. Par rapport aux modèles d'algorithmes traditionnels, les grands modèles de langage sont plus enclins à utiliser l'apprentissage pour maîtriser une connaissance systématique et l'appliquer à diverses tâches de travail afin d'en maximiser les avantages.

Comment appliquer de grands modèles de langage à diverses industries ? La réponse est de créer un grand modèle du domaine. Les grands modèles de domaine font référence à de grands modèles de langage qui peuvent faciliter l'annotation des données de domaine et le réglage précis des modèles dans les applications d'entreprise. Le modèle opérationnel commun actuel sur le marché est un vaste cadre de modèle basé sur les grandes entreprises. Les entreprises de divers domaines verticaux peuvent librement choisir et ajuster des modèles qui répondent à leurs propres besoins. Sur cette base, nous pouvons résumer les étapes à suivre par les entreprises pour former leurs propres grands modèles.

1. Choisissez un grand modèle de base adapté

Les entreprises doivent établir un système d'indicateurs systématiques basé sur leurs propres opérations commerciales, telles que l'exactitude, l'interprétabilité, la stabilité, le coût, etc. Après avoir quantifié les indicateurs, analyser et comparer les caractéristiques de chaque modèle.

Prenons l'exemple du projet BenTsao. Lorsque le projet a été créé, les développeurs devaient créer une carte des connaissances médicales faisant autorité et collecter la littérature médicale pertinente. Et exploitez l'API ChatGPT pour créer un ensemble de données affiné. Affinez les instructions pour obtenir l'effet des questions et réponses sur les connaissances médicales. Bien entendu, lorsque les entreprises sélectionnent des modèles, elles doivent également prendre en compte les capacités de base et les capacités de programmation du modèle lui-même. Les capacités de base du modèle lui-même doivent être suffisamment solides et non modulées avec précision. Parce que lorsque les entreprises se développent, elles se développent souvent sur la base des capacités de base du modèle. Actuellement, les meilleurs modèles incluent Code LLaMA (34B) et Starcoder (15B).

2. Nettoyer et étiqueter les données

Il s'agit d'un lien clé lié à l'opération finale. Le nettoyage des données affectera l'effet de la présentation du modèle. Le nettoyage des données s'effectue dans l'ordre, avec les principales étapes suivantes :

  1. Nettoyage de base : supprimez les informations enregistrées en double, corrigez les erreurs de bas niveau et garantissez un format de données unifié pour une visualisation facile ;
  2. Nettoyage structuré : sur la base d'un format unifié, les données sont transformées et créées, et les performances du modèle peuvent être sélectionnées et améliorées ;
  3. Nettoyage du contenu : l'identification sémantique, la fusion et le traitement des données aberrantes peuvent être effectués.
  4. Nettoyage avancé : la synthèse des données peut être effectuée par des moyens techniques, et des informations de données complexes telles que des images et des boissons peuvent être traitées en plus des informations textuelles, tout en garantissant la confidentialité des utilisateurs. Ce programme est limité à des applications spécifiques.
  5. Audit et vérification : engagez des experts du secteur pour effectuer un audit afin de vérifier si la qualité du nettoyage des données est conforme aux normes. Ce processus implique de nombreuses normes d'inspection et processus de contrôle.

L'annotation des données est la clé pour déterminer directement l'orientation de la collecte des données et de la formation dès les premiers stades de la conception du modèle. L'annotation des données peut être divisée en 9 étapes : Déterminer la tâche et les exigences d'annotation - Collecter les informations sur les données originales - Nettoyer et prétraiter les données - Concevoir le plan correspondant - Effectuer l'annotation des données - Contrôler la qualité et l'exactitude - Développer et améliorer les données - établir plans de formation correspondants, vérifier et tester les résultats - maintenir une méthode de travail de supervision et de mise à jour continue.

Parmi eux, lorsque nous collectons des données originales, nous pouvons collecter des informations publiques fournies par des instituts de recherche universitaires ou des entreprises pour faciliter l'application sur le terrain de la formation et de l'évaluation des modèles. Au cours du processus, il convient de prêter attention à la conformité juridique des données. Dans certains cas, une annotation d'entité, une annotation émotionnelle et une annotation grammaticale peuvent également être effectuées.

3. Formation et mise au point

La formation est le processus d'apprentissage en profondeur sur un grand modèle pour développer un modèle capable de comprendre et de générer du texte en langage naturel. Pendant cette période, les entreprises doivent traiter et collecter des données textuelles à grande échelle et apprendre leurs lois inhérentes, leur sémantique et leurs relations internes entre le contexte et le contexte du texte. À l'heure actuelle, les principales voies de formation sur le marché intérieur sont TPU + XLA + TensorFlow dirigés par Google et GPU + PyTorch + Megatron-LM + DeepSpeed ​​​​contrôlés par NVIDIA, Meta, Microsoft et d'autres grands fabricants.

Le réglage fin consiste à contrôler le modèle à entraîner sur la base des données annotées d'une tâche spécifique. L'objectif principal de cette étape est de modifier la couche de sortie et d'ajuster les paramètres appropriés tandis que le prix du minerai du modèle reste inchangé, afin que le modèle. peut s'adapter à la tâche spécifique.

L'évaluation finale, l'itération, le déploiement et la surveillance se concentrent sur les mises à niveau après-vente et la surveillance en temps réel après le développement du modèle. Dans ces deux liens, les développeurs doivent évaluer les performances du modèle selon les normes en vigueur dans le domaine. Ils peuvent embaucher des professionnels pour donner des suggestions d'évaluation, et les développeurs apporteront ensuite des améliorations et des mises à jour itératives en fonction de l'évaluation.

Une fois le modèle exécuté normalement, les développeurs doivent également surveiller et déployer le fonctionnement quotidien du modèle.

Tout au long du processus de formation, l'API joue un rôle important. Il peut aider les développeurs à traiter les données de manière efficace et rentable. Il peut également mettre à jour dynamiquement les données du modèle tout en garantissant que les données privées sont accessibles en toute sécurité dans les grands modèles.

  • HBase : le service [HBase] est une solution de stockage et de récupération de Big Data hautes performances et hautement évolutive basée sur la technologie de base d'Apache HBase, un système de base de données à colonnes distribuées open source. Il est conçu pour fournir une analyse Big Data en temps réel aux entreprises. Les applications de niveau supérieur dans divers scénarios commerciaux tels que le traitement des données, l'Internet des objets (IoT), la gestion des journaux et le contrôle des risques financiers offrent des capacités de gestion des données efficaces et fiables.
  • Service de journalisation : Cloud Log Service (CLS) est une plate-forme de service de journalisation unique fournie par Tencent Cloud. Elle fournit plusieurs services allant de la collecte de journaux, au stockage des journaux, à la récupération des journaux, à l'analyse des graphiques, à la surveillance des alarmes, à la livraison des journaux et à d'autres services pour aider les utilisateurs. utilisez les journaux pour résoudre plusieurs fonctions telles que l'exploitation, la maintenance et la surveillance des services. De plus, Tencent Cloud CLS adopte une conception d'architecture distribuée hautement disponible et effectue plusieurs stockages de sauvegarde redondants des données de journaux pour éviter que les données ne soient indisponibles en raison d'un temps d'arrêt du service à un seul nœud, offrant une disponibilité du service jusqu'à 99,9 % et fournissant des services stables et fiables. services pour les données de journalisation.
  • Cloud Monitor : Cloud Monitor prend en charge la définition d'alarmes de seuil d'indicateur pour les ressources de produits cloud et les ressources signalées personnalisées. Vous offre une surveillance tridimensionnelle des données des produits cloud, une analyse intelligente des données, des alarmes anormales en temps réel et un affichage visuel des données. Grâce à une collecte de deuxième niveau couvrant toutes les données des indicateurs, vous pouvez découvrir les changements d'indicateurs les plus granulaires et offrir une expérience raffinée de surveillance des produits cloud. La surveillance dans le cloud fournit un stockage gratuit 24 heures sur 24 des données de surveillance de deuxième niveau et prend en charge la visualisation et le téléchargement de données en ligne.
Les ressources piratées de "Qing Yu Nian 2" ont été téléchargées sur npm, obligeant npmmirror à suspendre le service unpkg. Zhou Hongyi : Il ne reste plus beaucoup de temps à Google. Je suggère que tous les produits soient open source. time.sleep(6) joue ici un rôle. Linus est le plus actif dans la « consommation de nourriture pour chiens » ! Le nouvel iPad Pro utilise 12 Go de puces mémoire, mais prétend disposer de 8 Go de mémoire. Le People's Daily Online examine la charge de type matriochka des logiciels de bureau : Ce n'est qu'en résolvant activement « l'ensemble » que nous pourrons avoir un avenir avec Flutter 3.22 et Dart 3.4 . nouveau paradigme de développement pour Vue3, sans avoir besoin de « ref/reactive », pas besoin de « ref.value » Publication du manuel chinois MySQL 8.4 LTS : vous aider à maîtriser le nouveau domaine de la gestion de bases de données Tongyi Qianwen niveau GPT-4 prix du modèle principal réduit de 97%, 1 yuan et 2 millions de jetons
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/5925727/blog/11105631
conseillé
Classement