Résumé des sujets d'apprentissage automatique

1. Quelles propriétés les fonctions d'activation dans l'apprentissage en profondeur doivent-elles avoir ?

  • calcul simple
  • non linéaire
  • avec région de saturation
  • presque partout différentiable

ABD. Analyse : (1) Non-linéarité : la dérivée ne peut pas être une constante. (2) Dérivable presque partout : sigmoïde est dérivable partout, et ReLU n'est dérivable qu'en des points finis). (3) Le calcul est simple. (4) Non-saturation : sigmoïde a une zone de saturation, et il y a un problème de disparition du gradient. Plus tard, relu a été proposé. (5) Monotonie. (6) La plage de sortie est limitée ; (7) Elle est proche de la transformation d'identité ; (8) Il y a peu de paramètres ; (9) La normalisation aide à stabiliser la formation.

2. La couche BatchNorm comptera la moyenne et la variance du lot d'entrée pour calculer l'EMA. Si la forme du lot d'entrée est (B, C, H, W), les formes de moyenne et de variance calculées sont :

  •     B * 1 * 1 * 1
  •     1 * C * 1 * 1
  •     B * C * 1 * 1
  •     1 * 1 * 1 * 1

b. Analyse : BN normalise chaque canal de plusieurs images, et il y a autant de moyenne et de variance qu'il y a de canaux.

3. La fonction de perte commune de CNN n'inclut pas lequel des éléments suivants ()

  • softmax_loss
  • perte_sigmoïde
  • Perte_contrastive
  • siamese_loss

 d. Analyse : L'application de Contrastive_Loss (perte contrastive) dans le réseau siamois (réseau de neurones jumeaux) peut traiter efficacement la relation des données appariées. La perte contrastive est principalement utilisée dans la réduction de la dimensionnalité pour garantir que les échantillons initialement similaires sont toujours similaires après la réduction de la dimensionnalité (dans le nouvel espace des caractéristiques). L'expression est la suivante :

 d est la distance entre les échantillons. Lorsque y = 1 lorsque les échantillons sont similaires, il ne reste que la première moitié de la fonction de perte. Plus la distance est grande, plus le modèle est mauvais et plus la perte est importante. Lorsque les échantillons ne sont pas similaires, y = 0, et il ne reste que la seconde moitié de la fonction de perte. Si la distance est plus petite, le modèle est moins bon et la perte est plus grande.

4. En ce qui concerne le modèle basé sur l'attention, lequel des énoncés suivants est correct ()

  • Modèle de mesure de similarité
  • est un nouveau réseau d'apprentissage en profondeur
  • est un modèle à l'échelle entrée-sortie
  • Ni l'un ni l'autre n'a raison

un. Analyse : le modèle basé sur l'attention est en fait une mesure de la similarité. Plus l'entrée actuelle est similaire à l'état cible, plus le poids de l'entrée actuelle sera important, ce qui indique que la sortie actuelle dépend davantage de l'entrée actuelle.

5. Lorsque vous envisagez un problème spécifique, vous ne disposez peut-être que d'une petite quantité de données pour le résoudre. Mais heureusement, vous disposez d'un réseau neuronal pré-formé pour un problème similaire. Laquelle des méthodes suivantes peut être utilisée pour utiliser ce réseau pré-entraîné ?

  •     Geler tout sauf le dernier calque et recycler le dernier calque
  •     Réentraîner l'ensemble du modèle sur de nouvelles données
  •     Accordez uniquement les dernières couches (accord fin)
  •     Évaluez chaque modèle de calque et sélectionnez-en quelques-uns à utiliser

c. Analyse : Méthode d'affinement du modèle :

La quantité de données est faible et la similarité des données est élevée : modifiez les dernières couches ou modifiez uniquement la couche de sortie.

La quantité de données est faible et la similarité des données est faible : gelez-en certaines, entraînez-en d'autres.

Grande quantité de données, faible similarité des données : formation à partir de zéro.

Grande quantité de données, grande similarité des données : idéal. Réentraînez-vous avec des poids pré-entraînés.

6. Quels sont les avantages de l'algorithme HK basé sur la fonction critère quadratique par rapport à l'algorithme perceptron ?

  •     peu de calcul
  •     Peut déterminer si le problème est linéairement séparable
  •     Sa solution est pleinement applicable au cas de la séparabilité non linéaire
  •     La solution a une meilleure adaptabilité

BD. Analyse : L'algorithme HK obtient le vecteur de poids sous le critère d'erreur quadratique moyenne minimale. S'applique aux linéaires séparables et non linéaires. Pour le cas de la séparabilité linéaire : le vecteur de poids optimal est donné ; pour le cas de la séparabilité non linéaire : il peut être distingué pour sortir du processus itératif.

7. L'unité de calcul de base du caffe est

  • goutte
  • couche
  • filet
  • solveur

b. Analyse : blob : unité de stockage de données de caffe ; couche : unité de calcul de caffe.

8. Quels sont les avantages de la structure Inception proposée par GoogLeNet ?

  •     Assurez-vous que le champ récepteur de chaque couche reste inchangé et que la profondeur du réseau est approfondie, ce qui rend le réseau plus précis
  •     Le champ réceptif de chaque couche augmente et la capacité d'apprendre de petites caractéristiques devient plus grande
  •     Extrayez efficacement des informations sémantiques de haut niveau et traitez la sémantique de haut niveau pour améliorer efficacement la précision du réseau
  •     Utilisez cette structure pour réduire efficacement le poids du réseau

d. Analyse : Structure multi-branches, les grands noyaux de convolution sont divisés en petits noyaux de convolution en série, les convolutions 3*3 sont divisées en convolutions 3*1 et 1*3, et les convolutions 1*1 sont utilisées pour réduire le poids du réseau.

9. La figure ci-dessous est un diagramme de descente de gradient d'un entraînement de réseau neuronal avec quatre couches cachées utilisant la fonction sigmoïde comme fonction d'activation. Ce réseau de neurones souffre du problème des gradients de fuite. laquelle des déclarations suivantes est correcte? 

La première couche cachée correspond à D, la deuxième couche cachée correspond à C, la troisième couche cachée correspond à B et la quatrième couche cachée correspond à A

Analyse : dans la rétropropagation du réseau de neurones, le gradient est transmis de l'arrière vers l'avant, le gradient diminue continuellement et devient finalement nul. À ce moment, le poids du réseau de neurones peu profond ne peut pas être mis à jour, de sorte que le taux d'apprentissage de la couche cachée précédente est inférieure à Le taux d'apprentissage de la couche cachée derrière, c'est-à-dire que lorsque le nombre de couches cachées augmente, la précision de la classification diminue à la place. Ce phénomène est appelé gradient de fuite . La disparition du dégradé entraîne une mise à jour rapide du poids de la couche arrière, et la mise à jour du poids près de la couche de sortie est relativement normale, et le réseau de la couche avant ne peut pas être mis à jour car le dégradé ne peut pas être transmis. Par conséquent, la mise à jour près de la couche d'entrée deviendra très lente, ce qui fera que les poids de la couche cachée près de la couche d'entrée seront presque inchangés, proches des poids initialisés. Ainsi, lorsque le réseau est très profond, la vitesse d'apprentissage est très lente ou ne peut pas être apprise. D a le taux d'apprentissage le plus lent et est donc la première couche cachée.

10. Lequel des énoncés suivants sur les réseaux de neurones profonds est faux ?

A L'utilisation de l'écrêtage de gradient (écrêtage de gradient) aide à ralentir le problème d'explosion de gradient
B Si la taille du lot est trop petite, l'effet de la normalisation du lot se dégradera
C Lors de l'utilisation de l'entraînement SGD, si la perte d'entraînement change progressivement et ne diminue plus de manière significative, généralement Il peut être encore réduit en réduisant le taux d'apprentissage.L'augmentation
du coefficient du terme régulier L2 permet de ralentir le problème de disparition du gradient

d. Analyse : la régularisation L2 est utilisée pour réduire la complexité du modèle, empêcher le surajustement et ne peut pas atténuer la disparition du gradient. La structure résiduelle, la fonction d'activation appropriée, l'écrêtage du gradient, le BN, l'initialisation, etc. peuvent atténuer la disparition du gradient.

11. Laquelle des affirmations suivantes sur les réseaux de neurones est correcte ?

A La fonction de perte doit être non convexe ou non concave par rapport à l'entrée
B Il existe une sorte de réseau neuronal profond (au moins une couche cachée) de sorte que chaque solution optimale locale est une solution optimale globale
C Le réseau neuronal profond est tomber facilement dans la solution optimale locale
Aucune des options ci-dessus n'est correcte

Analyse : B Le réseau de neurones est facile à mettre en selle plutôt que la solution optimale locale, et il y a très peu de points minimaux locaux dans la fonction de perte multidimensionnelle.

12. Les réseaux de neurones convolutifs sont couramment utilisés comme structure de base dans l'exploration d'images. Parmi les affirmations suivantes concernant les opérations de convolution (conv) et la mise en commun (pooling), lesquelles sont correctes ?

Une conv est basée sur l'invariance de la traduction, le pooling est basé sur la corrélation locale

Analyse : Invariance de traduction : Pour la même image et sa version traduite, le même résultat peut être produit. Corrélation locale : la couche de regroupement utilise la corrélation locale pour sous-échantillonner l'image, ce qui peut réduire la quantité de traitement de données tout en conservant les informations utiles, ce qui équivaut à la compression d'image .

13. Quelle approche dans RNN peut mieux traiter le problème d'explosion de gradient ?

A avec LSTM ou GRU

Détourage dégradé B

C décrochage

Analyse : B Il y a une accumulation de gradient dans LSTM, ce qui peut atténuer le problème de la disparition du gradient, mais cela aggravera le problème de l'explosion du gradient. La meilleure pratique consiste à limiter la plage de dégradés et à effectuer un écrêtage des dégradés.

14. Concernant l'optimiseur classiquement utilisé dans les réseaux de neurones, laquelle des affirmations suivantes est correcte

A La vitesse de convergence d'Adam est plus lente que RMSprop
B Comparé à SGD ou RMSprop et à d'autres optimiseurs, l'effet de convergence d'Adam est le meilleur
C Pour les réseaux de neurones légers, l'utilisation d'Adam est plus appropriée que l'utilisation de RMSprop
D Comparé à Adam ou RMSprop, etc. l'effet de convergence de SGD est le meilleur

Analyse : D. SGD peut converger vers le minimum, mais cela prend beaucoup de temps. Si vous vous souciez d'une convergence plus rapide et avez besoin de former un réseau plus profond et plus complexe, il est recommandé d'utiliser la méthode d'optimisation adaptative du taux d'apprentissage.

15. (Choix multiple) Quelles sont les principales raisons qui affectent l'effet de l'algorithme de clustering ?

A. Sélection des caractéristiques
B. Mesure de la similarité des modèles
C. Critères de classification
D. Qualité de l'échantillon des catégories connues

Analyse : ABC. Le clustering n'est pas supervisé et n'utilise pas de données étiquetées.

1 6. (Choix multiple) Dans le nettoyage des données, quelle est la méthode pour traiter les valeurs manquantes ?

A. Estimation
B. Suppression du cas entier
C. Suppression de variables
D. Suppression de paires

 Analyse : ABCD.

17. En HMM, si la séquence d'observation et la séquence d'états qui génèrent la séquence d'observation sont connues, laquelle des méthodes suivantes peut être utilisée pour estimer directement les paramètres ?

A. Algorithme EM
B. Algorithme de Viterbi
C. Algorithme avant et arrière
D. Estimation du maximum de vraisemblance

 Analyse : D. Algorithme EM : seule séquence d'observation, pas de séquence d'états pour apprendre les paramètres du modèle, c'est-à-dire l'algorithme de Baum-Welch. Algorithme de Viterbi : utilisez la programmation dynamique pour résoudre le problème de prédiction du HMM, pas l'estimation des paramètres. Algorithme avant et arrière : utilisé pour calculer la probabilité. Estimation du maximum de vraisemblance : un algorithme d'apprentissage supervisé qui estime les paramètres lorsque la séquence d'observation et la séquence d'état correspondante existent. Notez que l'estimation des paramètres du modèle compte tenu d'une séquence d'observations et d'une séquence d'états correspondante peut être estimée à l'aide du maximum de vraisemblance. S'il n'y a pas de séquence d'états correspondante pour une séquence d'observation donnée, EM est utilisé pour voir la séquence d'états comme des données cachées non mesurables.

18. Que se passe-t-il si les normes L1 et L2 sont ajoutées à la régression logistique en même temps ? .

A. Peut effectuer une sélection de fonctionnalités et empêcher le surajustement dans une certaine mesure 

B. Peut résoudre le problème de la malédiction de la dimensionnalité 

C. Peut accélérer le calcul 

D. Des résultats plus précis peuvent être obtenus

Analyse : A. La norme L1 a les caractéristiques d'une solution de coefficients, mais il faut noter que les traits non sélectionnés par L1 ne signifient pas qu'ils ne sont pas importants, car un seul des deux traits fortement corrélés peut être retenu. Si vous devez déterminer quelle fonctionnalité est importante, passez la validation croisée. 

19. (Choix multiples) En supposant qu'un camarade de classe ait accidentellement répété les deux dimensions des données d'entraînement lors de l'utilisation du modèle de classification Naive Bayesian (NB), alors quelle affirmation sur NB est correcte ?

A. Le rôle décisif de cette caractéristique répétée dans le modèle sera renforcé 

B. La précision de l'effet du modèle sera réduite par rapport au cas sans caractéristiques répétées 

C. Si toutes les caractéristiques sont répétées, les résultats de prédiction du modèle obtenus sont les mêmes que les résultats de prédiction du modèle sans répétition.

D. Lorsque les deux colonnes de caractéristiques sont fortement corrélées, les conclusions obtenues lorsque les deux colonnes de caractéristiques sont identiques ne peuvent pas être utilisées pour analyser le problème 

E. NB peut être utilisé pour la régression des moindres carrés 

F. Aucune des déclarations ci-dessus n'est correcte 

Analyse : BD.

20. (Choix multiple) Laquelle des méthodes de modèle suivantes appartient au modèle discriminatif (Modèle Discriminatif) ?

Un modèle gaussien mixte 

Modèle de champ aléatoire conditionnel B 

C Formation sur la discrimination 

D Modèle de Markov caché 

Analyse : BC. Les modèles discriminants courants sont : la régression logistique (régression logistique), l'analyse discriminante linéaire (analyse discriminante linéaire), les machines à vecteurs de support (machine à vecteurs de support), le boosting (apprentissage intégré), les champs aléatoires conditionnels (champ aléatoire conditionnel), la régression linéaire (régression linéaire) , Réseaux de neurones (réseau de neurones).

Les modèles génératifs courants incluent : modèle de mélange gaussien et autres types de modèles de mélange (mélange gaussien et autres types de modèles de mélange), modèle de Markov caché (Markov caché), NaiveBayes (bayésien naïf), AODE (estimation moyenne dépendante unique), Dirichlet latent allocation (modèle de sujet LDA), Machine Boltzmann restreinte (machine Boltzmann restreinte).

Le modèle génératif consiste à multiplier le résultat en fonction de la probabilité, tandis que le modèle discriminatif consiste à donner l'entrée et à calculer le résultat.

21. Il y a deux points d'échantillonnage, le premier point est un échantillon positif, son vecteur propre est (0,-1), le deuxième point est un échantillon négatif, son vecteur propre est (2,3), à partir de ces deux Un ensemble d'apprentissage composé de points d'échantillonnage pour construire une équation de surface de classification d'un classificateur SVM linéaire ?

A. 2x+y=4 

B.x+2y=5 

C.x+2y=3 

D. 2x-y=0

Analyse : C. Pour deux points, l'intervalle maximum est la bissectrice verticale, il suffit donc de trouver la bissectrice verticale.

22. Qu'est-ce qui est incorrect à propos de la régression Logit et du SVM ?

A. La fonction objectif de régression logit est de minimiser la probabilité a posteriori 

B. La régression logit peut être utilisée pour prédire la probabilité d'occurrence d'un événement 

C. L'objectif de SVM est de minimiser le risque structurel 

D. SVM peut efficacement éviter le surajustement du modèle

Analyse : A. La régression logit est essentiellement une méthode d'estimation du maximum de vraisemblance des poids basée sur des échantillons, et la probabilité a posteriori est proportionnelle au produit de la probabilité a priori et de la fonction de vraisemblance. Logit ne maximise que la fonction de vraisemblance et ne maximise pas la probabilité a posteriori, et encore moins minimise la probabilité a posteriori. Et minimiser la probabilité a posteriori est ce que fait l'algorithme naïf bayésien.

 23. (Choix multiple) Laquelle des affirmations suivantes est correcte ?

A. SVM est robuste au bruit (comme les échantillons bruyants d'autres distributions) 

B. Dans l'algorithme AdaBoost, le rapport de mise à jour des poids de tous les échantillons mal classés est le même 

C. Boosting et Bagging sont deux méthodes de combinaison de plusieurs votes de classificateurs, qui déterminent tous deux leur poids en fonction du taux correct d'un seul classificateur. 

D. Étant donné n points de données, si la moitié d'entre eux sont utilisés pour la formation et généralement pour les tests, la différence entre l'erreur de formation et l'erreur de test diminuera à mesure que n augmente

Analyse : BD. SVM lui-même a une certaine robustesse au bruit, mais des expériences ont prouvé que lorsque le taux de bruit est inférieur à un certain niveau, le bruit n'a pas beaucoup d'impact sur SVM, mais comme le taux de bruit continue d'augmenter, le taux de reconnaissance du classifieur diminuera. Chaque fonction de prédiction de Bagging n'a pas de poids, tandis que Boosting a un poids.

24. (Choix multiple) Lequel des critères suivants est le meilleur critère pour un classificateur linéaire ?

A. Fonction de critère perceptif 

B. Classification bayésienne 

C. Soutenir la machine vectorielle 

Critère de D.Fisher

 Analyse : ACD. Il existe trois grandes catégories de classificateurs linéaires : la fonction de critère de perceptron, le SVM, le critère de Fisher et les classificateurs bayésiens ne sont pas des classificateurs linéaires.

Fonction de critère perceptif : Le principe de la fonction de critère est de minimiser la somme des distances entre les échantillons mal classés et l'interface. Son avantage est que la fonction de classifieur est corrigée par les informations fournies par les échantillons mal classés.Ce critère est à la base du perceptron multicouche de réseau de neurones artificiels.

Support Vector Machine : L'idée de base est que sous la condition de deux types de séparabilité linéaire, l'interface de classificateur conçue maximise l'intervalle entre les deux types, et son point de départ de base est de minimiser le risque de généralisation attendue. (Les problèmes non linéaires peuvent être résolus à l'aide des fonctions du noyau)

Critère de Fisher : Le nom plus large est l'analyse discriminante linéaire (LDA), qui projette tous les échantillons sur une ligne droite à partir d'un point éloigné, de sorte que la distance entre les échantillons du même type soit aussi petite que possible, et la distance entre les échantillons de différents types est aussi grand que possible, spécifiquement pour maximiser le « bénéfice commercial généralisé de Ray ».

25. Lequel des modèles de séries chronologiques suivants peut mieux s'adapter à l'analyse et à la prédiction de la volatilité ?

A. Modèle AR 

Modèle B. MA 

C. Modèle ARMA 

Modèle D.GARCH

Analyse : D.

Le modèle AR est une sorte de prédiction linéaire, c'est-à-dire que, étant donné N données, le modèle peut déduire les données avant ou après le Nième point (point P défini), de sorte que son essence est similaire à l'interpolation.

Le modèle MA (modèle de moyenne mobile) est un modèle de moyenne mobile qui utilise la méthode de moyenne mobile de tendance pour établir un modèle de prédiction de tendance linéaire.

Modèle ARMA (modèle de moyenne mobile auto régressif) modèle de moyenne mobile auto régressif, l'une des méthodes d'analyse spectrale à haute résolution de la méthode des paramètres du modèle. Cette méthode est une méthode typique pour étudier le spectre rationnel des processus stochastiques stationnaires. Comparé à la méthode du modèle AR et à la méthode du modèle MA, il offre une estimation du spectre plus précise et de meilleures performances de résolution spectrale, mais son estimation des paramètres est plus lourde.

Le modèle GARCH est appelé modèle ARCH généralisé, qui est une extension du modèle ARCH. Le modèle GARCH(p,0) est équivalent au modèle ARCH(p). Le modèle GARCH est un modèle de régression spécialement conçu pour les données financières. À l'exception du modèle de régression ordinaire, GARCH modélise davantage la variance de l'erreur. Il est particulièrement adapté à l'analyse et à la prédiction de la volatilité.Cette analyse peut jouer un rôle d'orientation très important dans la prise de décision des investisseurs, et son importance dépasse souvent l'analyse et la prédiction de la valeur elle-même.

26. Supposons que nous rencontrions soudainement un problème pendant l'entraînement, après quelques cycles, l'erreur diminue instantanément. Vous pensez qu'il y a quelque chose qui ne va pas avec les données, alors vous tracez les données et constatez que les données sont peut-être trop biaisées pour causer le problème. Qu'allez-vous faire pour régler ce problème ?

A. Normaliser les données 

B. Prendre le changement logarithmique des données 

C. Ni l'un ni l'autre 

D. Effectuer une analyse en composantes principales (ACP) et une normalisation sur les données

 Analyse : D.

27. Quelle limite de décision ci-dessous est générée par un réseau de neurones ?

 Analyse : ABCD.

28. La figure ci-dessous montre que lorsque l'entraînement commence, l'erreur est constamment élevée car le réseau de neurones est bloqué dans un minimum local avant de progresser vers le minimum global. Pour éviter cette situation, laquelle des stratégies suivantes pouvons-nous adopter ?

 A. Modifier le taux d'apprentissage, par exemple en modifiant le taux d'apprentissage en continu pendant les premiers cycles de formation 

B. Dans un premier temps réduire le taux d'apprentissage d'un facteur 10, puis utiliser le terme momentum (momentum) 

C. Augmenter le nombre de paramètres afin que le réseau de neurones ne soit pas bloqué à l'optimum local 

D. Tout le reste est faux

 Analyse : A.

29. Pour une tâche de classification, si le poids du réseau de neurones n'est pas attribué au hasard au début et que le second est fixé à 0, lequel des énoncés suivants est correct ?

A. Aucune des autres options n'est correcte 

B. Pas de problème, le réseau de neurones commencera à s'entraîner normalement 

C. Les réseaux de neurones peuvent être entraînés, mais tous les neurones finissent par reconnaître la même chose 

D. Le réseau de neurones ne commencera pas l'entraînement car aucun changement de gradient

 Analyse : C.

30. Supposons que nous ayons entraîné un réseau neuronal convolutif sur l'ensemble de données ImageNet (reconnaissance d'objets). Ensuite, alimentez ce réseau de neurones convolutifs avec une image entièrement blanche. La sortie de cette entrée est également susceptible d'être n'importe quel type d'objet, n'est-ce pas ?

 Analyse : Non.

31. Lequel des énoncés suivants concernant la capacité du modèle est correct ? (Fait référence à la capacité du modèle de réseau neuronal à s'adapter à des fonctions complexes)

A. Le nombre de couches cachées augmente et la capacité du modèle augmente 

B. La proportion d'abandons augmente et la capacité du modèle augmente 

C. À mesure que le taux d'apprentissage augmente, la capacité du modèle augmente 

D. Ni l'un ni l'autre n'est correct

 Analyse : A. En fait, ce n'est pas tout à fait juste.

32. Le modèle de réseau neuronal tire son nom du fait qu'il s'inspire du cerveau humain. Le réseau de neurones est composé de nombreux neurones (Neuron), chaque neurone accepte une entrée, traite l'entrée et donne une sortie. Laquelle des affirmations suivantes sur les neurones est correcte ?

A. Chaque neurone n'a qu'une seule entrée et une seule sortie 

B. Chaque neurone a plusieurs entrées et une sortie 

C. Chaque neurone a une entrée et plusieurs sorties 

D. Chaque neurone a plusieurs entrées et plusieurs sorties 

E. Tout ce qui précède est correct

Analyse : E.

Je suppose que tu aimes

Origine blog.csdn.net/qq_39066502/article/details/126723605
conseillé
Classement