Modèle de régression de la technologie d'application haute fréquence dans la fabrication intelligente

avant-propos

Lorsque nous introduisons des technologies telles que les méthodes basées sur les données et l'intelligence artificielle dans les domaines de l'industrie et de la fabrication, nous constatons qu'une différence importante entre ces scénarios d'application et les scénarios d'application généraux est l'accent mis sur les modèles de régression. Dans les scénarios généraux d'application d'IA et les scénarios d'analyse de données commerciales, nous accordons plus d'attention aux modèles de classification et de regroupement : ces modèles forment des jugements qualitatifs sur les objectifs que nous voulons reconnaître, comme juger si l'état actuel du marché est en plein essor, ou identifier visuellement si un la personne a accès à la porte et ainsi de suite. Les scénarios industriels ont généralement des exigences plus élevées.

De nombreux scénarios d'application industrielle nous obligent à former des jugements quantitatifs sur les cibles d'observation. Ces scénarios d'application apparaissent dans l'ensemble du cycle de vie de la R&D, de la fabrication, de l'exploitation et de la maintenance des produits industriels. Cela nous oblige à utiliser des modèles de régression plus quantifiables dans des scénarios industriels. En construisant un modèle de régression, nous pouvons résumer et saisir les lois qui existent à chaque étape du cycle de vie d'un produit industriel. Ensuite, sur cette base, la réduction des coûts et l'augmentation de l'efficacité, l'amélioration de la qualité, l'évitement des problèmes et même le contrôle en temps réel peuvent être réalisés. Choisissons un exemple dans chaque phase pour illustrer ces scénarios :

  1. Lors de la conception d'un produit, différentes sélections de paramètres de conception se traduiront par des performances différentes du produit. En théorie, la relation entre les paramètres de conception et les performances peut être obtenue par divers calculs de simulation, et sur cette base, les paramètres de conception optimaux peuvent être obtenus en utilisant des méthodes de programmation mathématique (optimisation). Cependant, dans le travail réel, il faut beaucoup de temps et de ressources matérielles pour effectuer chaque simulation, ce qui rend difficile l'avancement de la conception de l'optimisation. À cette fin, il est nécessaire d'introduire le soi-disant modèle proxy. Le modèle proxy est basé sur plusieurs résultats de simulation et simule un processus de simulation avec une quantité de calcul relativement très faible à la place, réduisant ainsi considérablement l'appel du processus de simulation réel. dans la conception de l'optimisation. Le modèle proxy ici est un modèle de régression basé sur les données de plusieurs résultats de calcul de simulation.

  2. La chaîne de production de l'industrie manufacturière comporte un grand nombre de paramètres industriels et de facteurs d'influence qui affectent le rendement des produits finis. Ensuite, sous la condition de percevoir les valeurs de ces paramètres et facteurs d'influence, nous espérons établir une relation fonctionnelle approximative entre ces éléments et le taux de rendement des produits finis, ce qui nous oblige à établir une régression entre les données de perception et les taux de rendement des produits Modèle.

  3. Pour les produits industriels complexes et coûteux tels que les installations d'énergie nucléaire, l'aérospatiale, l'aviation, les produits marins et les lignes de production de fabrication de pointe, l'utilisation de la technologie du jumeau numérique pour surveiller leur état de fonctionnement en temps réel et, sur cette base, pour estimer les risques d'exploitation possibles des produits est un important développement et construction à l'heure actuelle. Cette technologie nécessite un calcul rapide de l'état du système global et des changements d'état du système dans la période de temps suivante après l'obtention des données de perception de la réalité. En raison de la nature en temps réel élevée du jumeau numérique, il n'est souvent pas possible d'utiliser un modèle de mécanisme complexe pour résoudre cet état. À ce stade, il est nécessaire que le système de jumeau numérique contienne une représentation approximative de la relation de mécanisme du système. . Cette représentation combine la relation de mécanisme du système avec les informations d'état réelles du système pour former un modèle d'approximation du système avec une faible complexité de calcul, une bonne robustesse et une grande précision. La solution de ce modèle approximatif appartient principalement à la construction de modèles de régression.

Ces exemples démontrent la généralité de la construction de modèles de régression à différentes étapes de la fabrication intelligente. Le grand nombre d'applications de tels modèles de régression est une caractéristique importante de l'utilisation de la technologie de l'intelligence artificielle dans le domaine industriel. Bien que de nombreux articles aient introduit le modèle de régression, ils se concentrent souvent sur l'introduction d'algorithmes spécifiques et le manque d'induction systématique.

Pour cette raison, nous écrivons spécialement cet article pour trier les problèmes techniques pertinents du modèle de régression, afin d'aider les praticiens concernés à comprendre le cadre technique global du modèle de régression. La partie suivante de cet article aborde les points suivants : Premièrement, introduisons le concept de régression, y compris sa différence et son lien avec "l'ajustement" ; deuxièmement, nous introduisons une série de méthodes de régression classiques à partir de la méthode des moindres carrés, et introduisons le calcul commun et évaluation des méthodes des modèles de régression ; enfin, nous résumons toutes les méthodes et donnons leurs comparaisons de caractéristiques pour que les praticiens réels de l'intelligence industrielle sélectionnent les modèles en fonction de leurs besoins.

Définition de la régression

En statistique, l'analyse de régression fait référence à une méthode d'analyse statistique pour déterminer la relation quantitative entre deux variables ou plus. - Encyclopédie Baidu

Le terme "régression" a été proposé pour la première fois par Galton, un célèbre biologiste et statisticien britannique, cousin de Darwin (qui a proposé la théorie de l'évolution). Il a constaté que les parents dont la taille est significativement supérieure à la moyenne, leur progéniture sera généralement inférieure à celle de leurs parents ; en revanche, les parents dont la taille est significativement inférieure à la moyenne ont des antécédents statistiquement plus élevés que leurs parents. Il a décrit cette loi comme la tendance de la taille des descendants humains à "revenir" à la valeur moyenne, utilisant ainsi le mot "régression". Ce qui est remarquable dans cette anecdote, c'est que le concept de « régression » est d'abord venu du domaine des statistiques. On peut dire que, dans un sens, la régression consiste à rechercher la relation quantitative entre les variables qui se conforme le mieux à une certaine probabilité statistique. Résoudre principalement les problèmes suivants :

  1. Déterminez s'il existe une corrélation entre plusieurs variables spécifiques et, le cas échéant, recherchez l'expression mathématique appropriée entre elles.
  2. Selon la valeur d'une ou plusieurs variables, prédisez ou contrôlez la valeur d'une autre variable, et sachez quelle précision cette prédiction ou ce contrôle peut atteindre.

Un concept mathématique très proche du concept de régression est "l'ajustement de courbe". Étant donné que les méthodes de calcul réelles couvertes par ces deux concepts se chevauchent beaucoup, dans de nombreux cas, nous ne les distinguons pas et les traitons comme la même chose. C'est très bien dans la plupart des cas, sauf dans les cas suivants :

  1. L'analyse de régression ne nécessite pas de modèle a priori et peut choisir différentes méthodes de représentation en fonction des caractéristiques des données ou des différents objectifs d'optimisation. L'ajustement de courbe a généralement un modèle a priori, de sorte que la tâche principale de l'ajustement est de déterminer des paramètres raisonnables pour son modèle, ce qui est également le sens du mot ajustement.
  2. L'analyse de régression est basée sur des statistiques, donc en plus d'obtenir la relation entre les données, il est généralement nécessaire d'estimer les caractéristiques statistiques de cette relation, telles que les caractéristiques statistiques des résidus aléatoires qui existent entre les données autres que la détermination de la relation. La tâche d'ajustement de la courbe consiste généralement uniquement à calculer des paramètres raisonnables tels que son écart soit minimisé.
  3. Pour certains problèmes où il n'y a pas de courbe à tracer, la terminologie de ces cas a tendance à utiliser la régression plutôt que l'ajustement de courbe, comme le calcul des valeurs propres d'une distribution statistique à partir de données échantillonnées.

De nombreuses formes de modèles de régression

Les modèles de régression peuvent être exprimés sous de nombreuses formes, et différentes formes ont souvent des fonctions, des performances et des méthodes de résolution différentes.

En général, nous pouvons diviser les modèles de régression en trois catégories :

  1. modèle analytique
  2. modèle non paramétrique
  3. Les réseaux de neurones

Chacun de ces modèles peut bien sûr être divisé en plusieurs sous-catégories. Ci-dessous, nous les présentons un par un.

Modèles analytiques (modèles paramétriques)

Évidemment, les modèles analytiques font référence aux modèles qui peuvent être représentés par des expressions mathématiques. Ce type de modèle est la première forme à laquelle on pense quand on parle de "régression". Les étudiants y sont le plus exposés en classe, et les chercheurs veulent le plus le construire dans la recherche. C'est la forme d'expression la plus concise et la plus convaincante de la science. lois.

Cependant, il n'y a pas tellement de problèmes que les modèles analytiques peuvent résoudre dans la vie réelle. Veuillez imaginer comment une expression analytique peut être utilisée pour représenter une courtepointe
ou un visage. Peut-être par souci de simplicité, une courtepointe sera simplifiée en un plan, ou plus compliqué, une variété bidimensionnelle ; mais il peut être difficile pour la plupart des gens de simplifier un visage en une sphère.

Malgré ces limitations, il est encore courant et efficace d'utiliser des modèles analytiques pour résoudre des problèmes de régression dans le domaine industriel. En effet, le modèle analytique présente trois caractéristiques très appréciées dans le domaine industriel par rapport aux autres modèles de régression.Avec la bénédiction de ces caractéristiques, il est très approprié d'utiliser le modèle analytique dans des scénarios d'application relativement simples :

  1. Les modèles analytiques nécessitent moins de volume de données.
  2. Le modèle analytique incarne dans une certaine mesure la connaissance préalable de la loi des données.
  3. Une fois les paramètres du modèle analytique déterminés, l'utilisation du modèle pour résoudre les nouvelles entrées est très rapide.

Les modèles analytiques peuvent être grossièrement divisés en deux types :

  1. La forme de la somme des fonctions paramétriques linéaires
  2. autre

Le premier type de modèle analytique est composé de la somme des fonctions de plusieurs variables indépendantes, et chaque élément de la somme n'a qu'une seule fonction de pondération linéaire ; d'autres modèles se réfèrent à des modèles qui n'ont pas de telles caractéristiques, comme la régression exponentielle, et la Pour ce modèle de fonction de Lorenz, si nous savons exactement que la relation entre les variables observées est conforme à cette loi, nous devons résoudre la courbe de fonction des deux paramètres de la formule (1) et l'erreur gaussienne basée sur les données échantillonnées
insérez la description de l'image ici
. la forme des données échantillonnées est comme ceci sous certains paramètres.

insérez la description de l'image ici
— Les formules mathématiques suivantes n'ont pas besoin d'être lues attentivement, nous voulons juste illustrer la complexité de ce travail.

Résoudre les paramètres d'une telle fonction n'est pas très facile, et cela nous rappelle des termes tels que la méthode de Newton, la méthode de descente de Newton ou la méthode de descente de gradient. Ici, nous prenons la méthode de descente de gradient comme exemple. La descente en pente est également connue sous le nom de descente la plus raide. Pour utiliser la méthode de descente de gradient pour trouver le minimum local d'une fonction, il est nécessaire de rechercher de manière itérative le point de distance de pas spécifié dans la direction opposée du gradient (ou gradient approximatif) correspondant au point actuel sur la fonction. Dans les problèmes de régression, les variables indépendantes de cette fonction sont les coefficients. Méthode de descente de gradient, qui calcule itérativement les coefficients requis. Ses étapes spécifiques comprennent :

La différence entre les résultats calculés de la fonction de Lorentz et les résultats mesurés est exprimée sous la forme d'une fonction de perte sous la forme de MSE. Comme le montre l'équation 2 :
insérez la description de l'image ici
lorsque la valeur du coefficient indéterminé est correcte, la valeur minimale de la fonction de perte ci-dessus est 0. A ce moment, la dérivée partielle de la fonction de perte par rapport à chaque coefficient est nulle. Il faut donc calculer la dérivée partielle de la fonction de perte par rapport à chaque coefficient, donc la forme de la dérivée partielle de chaque paramètre doit s'écrire comme suit :
insérez la description de l'image ici
Sur cette base, initialiser d'abord les paramètres à demander, tels que comme attribuant toutes les valeurs à 1, puis définissez la taille de l'étape de calcul de descente de gradient, telle que le réglage est de 0,01. Utilisez ensuite les formules 3, 4 et 5 ci-dessus pour calculer le gradient de manière itérative et ajustez la valeur initiale avec la taille de pas spécifiée pour que les paramètres se rapprochent progressivement de la valeur raisonnable. Avec les paramètres ci-dessus, l'itération en 50 étapes des trois trajectoires de changement de paramètre ressemble à ce qui suit.
insérez la description de l'image ici
Dans cet exemple, le paramètre est correctement itéré jusqu'à la valeur théorique (array([2.99990868,2.00008539, 3.9999999 ] ) ), mais cette méthode est en fait très fragile. Tout d'abord, une telle forme composite est très difficile à définir dans des problèmes pratiques, et même avec une telle forme, si une valeur initiale et une taille de pas inappropriées, ainsi qu'une méthode de calcul inappropriée sont utilisées dans la solution, il est difficile de obtenir une stabilité du résultat. Les amis intéressés peuvent essayer de modifier la valeur initiale et la taille du pas en fonction de la formule ci-dessus, et il est facile de voir les résultats divergents.

Par conséquent, dans l'industrie, le premier modèle est plus utilisé dans les applications, car le premier modèle a deux caractéristiques importantes :

  1. Il peut s'adapter à un grand nombre de fonctions (continues) dans une certaine plage de valeurs (ou sur un certain voisinage).
  2. Ce modèle est facile à résoudre.

Permettez-moi d'abord d'expliquer la première fonctionnalité. En repensant au développement de Taylor en mathématiques avancées, nous devrions être en mesure de comprendre les propriétés de ces polynômes. Cela nous aide également à déterminer les termes du modèle utilisé pour ajuster les données : les termes avec des puissances plus petites doivent être préférés, et les termes d'ordre supérieur doivent être ajoutés de manière adaptative. Comme le développement de Taylor, les termes avec des puissances plus élevées sont susceptibles d'avoir des coefficients plus petits. Et dans le cas général si nous obtenons le contraire, il est temps de voir si quelque chose s'est mal passé sans autre connaissance préalable.

Discutez ensuite de la deuxième caractéristique, pour les polynômes, en général, la méthode de résolution la plus couramment utilisée est la méthode des moindres carrés. La théorie statistique peut prouver que la méthode des moindres carrés réalise l'estimation du maximum de vraisemblance dans l'échantillon et la forme de cartographie donnés. En minimisant formellement la somme des carrés de l'erreur, le résultat est que l'erreur de données est minimisée et la solution est également très pratique. Elle était à l'origine utilisée pour estimer des équations linéaires multivariées sans solutions exactes, mais en fait, tant que chaque élément du polynôme n'a qu'un seul paramètre de multiplication, cette forme est linéaire pour les paramètres à rechercher, donc la méthode des moindres carrés peut aussi être utilisé Estimer les valeurs optimales pour ces paramètres.

Il convient de mentionner que lorsque la méthode des moindres carrés est effectivement utilisée pour résoudre des coefficients polynomiaux, parce que le calcul de l'inversion d'une énorme matrice avec une taille d'échantillon est trop coûteux, elle n'est généralement pas utilisée pour la résoudre sous forme matricielle, mais pour obtenir la solution par décomposition SVD de la matrice .

La forme de sommation des fonctions paramétriques linéaires permet de résoudre une grande partie des problèmes de régression dans le domaine industriel. Cependant, il existe souvent des exigences spécifiques dans certains scénarios d'application spécifiques, et ces exigences peuvent se refléter dans les différentes étapes du modèle analytique, de la modélisation à la solution. Par exemple:

  1. Relations a priori incertaines : les données rencontrées dans les scénarios industriels réels comportent souvent de nombreuses variables, et la modélisation avec ces variables produit un nombre considérable de termes sous cette forme de modèle. En fait, si l'on ne prend que le terme quadratique, il y aura Cn2 + n termes pour n variables. Par exemple n = 10, ce qui n'est pas rare dans un scénario industriel, et si des polynômes quadratiques rationnels étaient choisis pour modéliser ces variables, il y aurait 55 termes quadratiques. Nous savons que bon nombre de ces termes quadratiques sont en fait inutiles, mais nous ne savons souvent pas lesquels ils devraient être. Cette situation générale nous fait penser que, étant donné une forme a priori générale, une forme relativement spécifique et relativement précise qui ne contient pas d'items redondants peut être obtenue par modélisation de régression.

Cette attente est exprimée sous forme mathématique, qui peut être reflétée dans la définition de la fonction de perte du modèle (en ajoutant un terme de régularisation), ou elle peut uniquement être reflétée dans le processus de résolution. En ajoutant différentes exigences et en les résolvant, nous pouvons obtenir des modèles analytiques avec des valeurs de paramètres très différentes. Dans certains des modèles analytiques régularisés, les paramètres d'un grand nombre de termes de sommation sont mis à zéro, de sorte que nous obtenons un modèle d'expression relativement compact. Par exemple, la régression du lasso commun, la régression du réseau élastique et la régression parcimonieuse sont toutes des manifestations de ce concept. Il convient de noter que, d'une part, différentes définitions de termes de régularisation expriment certaines connaissances préalables, et d'autre part, elles changeront également la méthode de résolution des paramètres.Par exemple, la régression au lasso utilise l'algorithme d'angle minimum pour la solution. Ces méthodes de résolution présentent différents avantages et inconvénients, qui affecteront la qualité finale de la modélisation.

  1. La variable cible est difficile à séparer de la variable indépendante : c'est aussi une situation courante dans les scénarios industriels. Par exemple, le test mécanique de la performance de rupture bidimensionnelle d'un certain matériau présente généralement une forme elliptique sur l'image où les deux contraintes principales sont les axes horizontal et vertical. Cette situation contient deux situations dans lesquelles la variable cible et la variable indépendante sont difficiles à séparer. D'une part, la relation entre les variables de force dans ces deux directions présente une ellipse, ce qui signifie que la variable cible et la variable indépendante constituent l'expression d'une fonction implicite, il faut donc considérer le modèle de régression sous la forme de une fonction implicite ; d'autre part, dans différents états de contrainte, Par exemple, lorsque deux directions sont sous tension ou deux directions sont sous pression en même temps, la relation entre les deux variables n'est pas la même, et le même modèle de régression ne peut pas être utilisé, vous rencontrerez donc le problème de la construction d'un modèle de régression avec une fonction par morceaux, qui est différente de celle mentionnée plus loin. La segmentation des données par le modèle de fonction segmentaire est claire a priori, et le problème principal réside dans la continuité du modèle de régression entre les segments. Il n'y a pas de stratégie de solution unifiée pour ces situations spécifiques qui sont étroitement liées à l'entreprise, et des solutions correspondantes doivent être données en fonction de l'entreprise réelle et des caractéristiques mathématiques du modèle.

Modèles non paramétriques basés sur des statistiques

Le modèle analytique est en effet un paradigme de régression puissant, mais il présente également plusieurs lacunes, telles que les trois aspects suivants :

  1. Cette méthode de modélisation est principalement destinée à l'ajustement des données globales et il est souvent difficile de traiter des données spéciales locales.
  2. Lors de la résolution d'un problème de régression réel, la forme analytique donnée équivaut à spécifier une forme a priori définie des données, qui peut ne pas correspondre à la situation réelle. Par exemple, pour un modèle sous forme polynomiale, cela implique que la relation entre les données est continue voire différentiable. Cependant, la situation réelle peut ne pas répondre à cette hypothèse.
  3. La conclusion de régression donnée par le modèle analytique est généralement certaine, et il manque souvent la description des informations statistiques qui peuvent exister dans la relation entre les variables. Même si une fonction de densité de probabilité est utilisée pour construire les caractéristiques statistiques d'un ensemble de données d'échantillon, le degré d'accord entre la fonction de densité de probabilité finale et la distribution réelle des données est généralement incapable de s'exprimer.

Pour cette raison, de nombreux modèles de régression non paramétriques basés sur des statistiques ont été proposés pour tenter de résoudre ces problèmes. Les modèles de régression non paramétriques sont également appelés modèles de régression non paramétriques. Ce modèle n'oblige pas l'utilisateur à fournir une forme a priori très spécifique de la relation entre les variables, mais construit un modèle basé sur des lois générales de distribution des données et des exemples de données. De nombreux modèles de régression intelligents peuvent être classés en modèles non paramétriques, tels que la régression préservant l'ordre, la régression d'arbre de décision, etc. Deux cadres de modèle représentatifs sont la régression de processus gaussien (GPR) et la régression polynomiale locale (LPR).


La régression de processus gaussien (GPR) est un modèle non paramétrique qui utilise des priors de processus gaussien ( GP) pour effectuer une analyse de régression sur les données.

Le processus gaussien (Processus gaussien, GP) est une sorte de processus stochastique en théorie des probabilités et en statistiques mathématiques. Il s'agit d'une combinaison d'une série de variables aléatoires (variables aléatoires) soumises à une distribution normale dans un ensemble d'indices (ensemble d'indices).

La régression de processus gaussien a été proposée par deux chercheurs en 1996 avec une description systématique et une méthode de résolution correspondante, mais ses variantes, ou en tant que technique pratique dans des domaines spécifiques, existent depuis plus de 50 ans. Lorsque les techniciens liés à la R&D de produits industriels utilisent un logiciel de conception d'optimisation tel que isight pour résoudre le schéma de conception optimal, ils rencontreront le problème que les calculs de simulation sont trop coûteux et ralentissent le processus d'optimisation itératif. Pour résoudre ce problème, ils utilisent souvent un modèle de substitution appelé Krigeage pour remplacer partiellement les calculs de simulation. Cette méthode de krigeage est une implémentation de la régression de processus gaussien en géostatistique.

Étant donné que cet article s'adresse aux praticiens de la fabrication industrielle intelligente, le processus mathématique de régression du processus gaussien n'est pas décrit en détail ici, mais seules les caractéristiques de cet algorithme de régression sont introduites :

  1. L'a priori impliqué par la régression de processus gaussien est que la fonction à régresser est un processus gaussien (multivarié).
  2. Dans la régression de processus gaussien, la corrélation qui existe entre les variables est définie par leur covariance. Généralement, cette matrice de covariance est représentée par une fonction de noyau à base radiale, ce qui signifie que la solution aux données inconnues en dehors du point d'échantillonnage est déterminée en fonction de la distance entre les données et chaque point d'échantillonnage, généralement les informations fournies par le point d'échantillonnage. plus près de lui Plus le poids est élevé. Il s'agit donc d'un algorithme similaire à l'interpolation des points voisins.
  3. Sur la base de la deuxième caractéristique, on peut en déduire que la performance plus précise du modèle provient d'un échantillonnage suffisant des données d'échantillon dans la plage de valeurs.
  4. Sur la base de la deuxième caractéristique, on peut déduire que le modèle a de meilleures performances d'interpolation, mais les performances d'extrapolation sont difficiles à garantir.
  5. Dans le calcul d'ajustement réel, il est nécessaire d'utiliser la fonction de noyau pour calculer la matrice de co-corrélation entre la variable à résoudre et la variable d'échantillon à chaque fois, de sorte que la quantité de calcul est relativement importante.

La méthode de régression polynomiale locale peut être connue par son nom, elle utilise différents polynômes pour s'adapter à différentes zones locales. L'algorithme espère diviser les données de manière appropriée afin que la couverture polynomiale de chaque zone puisse généralement obtenir une meilleure précision d'ajustement. Une fois le modèle construit, la complexité de calcul de la prédiction de chaque région de cet algorithme est évidemment inférieure à celle de l'algorithme de régression à processus gaussien, et sa précision est meilleure que celle de la régression polynomiale globale. Il semble que la régression polynomiale locale soit un relativement bon compromis, mais la solution modèle de cette méthode est relativement lourde et ses performances sont affectées par de nombreux paramètres, il existe donc certaines exigences pour les compétences des modélisateurs. Mais cette méthode peut être appelée directement en appelant Tempo AI de Merrill Data et d'autres produits, en utilisant son nœud de fonction polynomial local intégré.
insérez la description de l'image ici

Modèles de réseaux neuronaux pour la régression

Le développement de l'intelligence artificielle a démontré le grand potentiel des réseaux de neurones. Par conséquent, en plus des méthodes de modélisation de régression traditionnelles, il est également nécessaire d'envisager l'utilisation de méthodes de réseau de neurones pour construire des modèles de régression. L'un des grands avantages des modèles de réseaux de neurones par rapport aux méthodes de régression traditionnelles est qu'ils ont des capacités d'ajustement très flexibles et ont donc la capacité d'exprimer des relations inter-variables complexes. Mais d'autre part, il existe également certaines limites dans la construction de modèles de réseaux de neurones, telles que la nécessité d'un grand nombre d'échantillons de données d'apprentissage, et par exemple, les connaissances antérieures n'ont pas de meilleur mécanisme et de meilleure stratégie de fusion de données, sauf en tant que complément. élément de la fonction de coût. , et la complexité de calcul du réseau de neurones est généralement relativement élevée.

Sur cette base, l'utilisation actuelle des réseaux de neurones dans le domaine de la construction de modèles de régression n'est pas répandue. Le réseau neuronal relativement courant utilisé pour la construction du modèle de régression est le modèle de réseau neuronal rbf, qui utilise un modèle de réseau fixe à trois couches
avec une fonction de base radiale (généralement, une fonction gaussienne) comme fonction d'activation et le nombre d'échantillons comme sortie. nombre de neurones. Ce modèle de réseau de neurones est en fait assez différent du réseau de neurones BP commun actuel et est plus proche du principe de régression du processus gaussien. Selon les recherches de J.-P. Costa et al., les performances du réseau de neurones rbf sont légèrement inférieures à la régression du processus gaussien en utilisation réelle.

Évaluation des modèles de régression : exigences mathématiques et commerciales

L'évaluation des modèles de régression a généralement les orientations suivantes.

  1. Performance du modèle sur des données d'échantillon

Si les données de l'échantillon ne contiennent pas d'erreurs, il est concevable que cette différence soit la plus faible possible. Le modèle de régression général décrit cette différence à l'aide de l'erreur quadratique moyenne, que nous avons également utilisée dans l'équation (2) ci-dessus.

L'erreur quadratique moyenne (erreur quadratique moyenne, MSE) est une mesure qui reflète le degré de différence entre l'estimateur et la quantité estimée. Soit t un estimateur du paramètre de population θ déterminé selon l'échantillon, et l'espérance mathématique de (θ-t)2 est appelée l'erreur quadratique moyenne de l'estimateur t. Il est égal à σ2+b2, où σ2 et b sont respectivement la variance et le biais de t.

En fait, ce critère d'évaluation n'est pas seulement utilisé pour mesurer les performances du modèle, MSE est généralement l'objectif d'optimisation direct pour résoudre le modèle de régression. Par conséquent, lorsque la forme de base du modèle est déterminée, le résultat de la solution est celui qui peut obtenir l'EQM minimale parmi les familles de fonctions optionnelles déterminées par la forme de base.

Si les données de l'échantillon contiennent des erreurs, le MSE n'est généralement pas nul, mais lorsque nous choisissons un modèle analytique avec une dimension vc élevée ou un réseau de neurones avec un grand nombre de couches, nous pouvons confondre le bruit contenu dans l'échantillon comme faisant partie de la loi L'incorporer dans le modèle de régression forme un surajustement. Dans ce cas, lorsque MSE est nul ou extrêmement petit, nous ne savons souvent pas si un surajustement s'est produit ou si la régularité des données de l'échantillon est suffisamment forte. Pour cela, d'autres normes doivent également être introduites.

  1. Performance du modèle sur des données inconnues

Afin d'identifier si le modèle de régression est sur-ajusté, nous devons introduire un ensemble d'apprentissage et un ensemble de test. Ces deux concepts sont devenus familiers à de nombreuses personnes avec le développement de l'apprentissage automatique. En termes simples, l'ensemble d'apprentissage et l'ensemble de test sont échantillonnés au hasard à partir des données de l'échantillon et ont les mêmes caractéristiques de distribution statistique (le nombre d'échantillons doit donc être suffisamment grand), il n'y a pas de chevauchement entre les deux ensembles de données, et leur combinaison est l'ensemble d'échantillons total.

Lors de la construction du modèle de régression, nous n'utilisons que les données de l'ensemble d'apprentissage, et lors de l'évaluation du modèle après la construction du modèle, nous utilisons les données de l'ensemble d'apprentissage et de l'ensemble de test séparément, et comparons les performances des deux ensembles de données sur la même différence de modèle de régression (comme MSE). Si les deux ensembles de données ont des performances similaires sur le modèle, on dit que le modèle n'est pas sur-ajusté, à l'inverse si la valeur MSE des données de l'ensemble d'apprentissage sur le modèle est faible, et la valeur MSE des données de l'ensemble de test sur le modèle est high Si , le modèle est surajusté
. Il est important de noter qu'un modèle surajusté ne peut pas du tout être utilisé, il n'a généralement aucune signification directrice pour la réalité.

Parfois, les données d'échantillon que nous obtenons ne peuvent être limitées qu'à une plage limitée de valeurs, ce qui est courant dans la production industrielle. Nous espérons déduire la situation de la variable cible dans d'autres plages de valeurs à travers cette plage de valeurs limitée.Ainsi, en plus de diviser l'échantillon pour vérifier que le modèle n'a pas été sur-ajusté, il est également nécessaire d'étudier la couverture du modèle. des données de l'échantillon La différence entre les performances en dehors de la plage de valeurs et les performances dans la plage. C'est-à-dire la capacité du modèle à extrapoler dans l'intervalle de distribution statistique de l'échantillon. Intuitivement, le modèle analytique aura une erreur quadratique moyenne (erreur quadratique moyenne, MSE) qui est une mesure qui reflète le degré de différence entre l'estimateur et la quantité estimée par rapport au modèle non paramétrique. Soit t un estimateur du paramètre de population θ déterminé selon l'échantillon, et l'espérance mathématique de (θ-t)2 est appelée l'erreur quadratique moyenne de l'estimateur t. Il est égal à σ2+b2, où σ2 et b sont respectivement la variance et le biais de t.

Meilleures performances d'extrapolation, mais cela nécessite que le modèle exprime intrinsèquement la relation variable sous une forme analytique. Ce n'est pas facile à vérifier. De plus, même si les données connues sont divisées en intervalles, nous ne pouvons connaître que les performances d'extrapolation du modèle obtenu sur la plage de valeurs couverte intentionnellement, mais pas les performances d'extrapolation réelles sur l'intervalle de valeurs inconnues. Certaines situations nécessitent que des analystes de données et des experts métier effectuent une analyse spécifique sur des problèmes spécifiques.

  1. Complexité de calcul du modèle

Sur la base des pratiques d'ingénierie, nous espérons toujours que le modèle de régression obtenu pourra être calculé rapidement et que les résultats seront précis. Mais la réalité ne nous permet souvent pas d'avoir les deux. Cela implique la complexité de calcul du modèle de régression. Dans le cours d'algorithme, nous divisons la complexité de calcul en deux catégories : la complexité temporelle et la complexité spatiale. Mais pour la construction de modèles, il y a d'autres aspects à prendre en compte, notamment :

  • Complexité de calcul (temps, espace) lors de la construction du modèle
  • Complexité de calcul (temps, espace) lors de l'utilisation du modèle
  • Les exigences du modèle concernant la quantité d'échantillons de données

Pour différents types de modèles, il existe certaines différences dans leurs performances dans les trois aspects ci-dessus. Cependant, étant donné que la construction du modèle est généralement hors ligne et limitée en nombre, l'utilisation du modèle est souvent à haute fréquence et limitée dans le temps. Donc, en général, nous nous concentrons sur la complexité de calcul de l'utilisation du modèle. Cependant, dans le domaine de la fabrication intelligente, sur la base de la situation réelle où les données sont difficiles à obtenir, l'exigence du modèle pour la quantité d'échantillons de données est généralement une considération importante.

sélection du modèle

Enfin, nous résumons la forme de modèle de régression mentionnée ci-dessus, la difficulté de résolution, les caractéristiques de performance, etc. et donnons les recommandations de sélection suivantes.

insérez la description de l'image ici

Je suppose que tu aimes

Origine blog.csdn.net/qq_42963448/article/details/131520426
conseillé
Classement