l'apprentissage automatique des articles de retour (a)

l'apprentissage automatique des articles de retour (a)

I. Vue d'ensemble

La régression est à partir d'un ensemble de données afin de déterminer la relation quantitative entre certaines variables, ce qui est un modèle mathématique et d'estimer les paramètres inconnus. Le but est de prédire la valeur cible de retour numérique, son objectif est soumis à des données continues pour trouver l'équation correspond le mieux aux données, et de prédire la valeur spécifique. Equation dans laquelle recherchés, équation appelée de régression, en résolvant les équations de régression, d'abord déterminer le modèle le plus modèle de régression simple est une régression linéaire simple (par exemple y = kx + b), il consiste à calculer les coefficients de régression de l'équation de régression (à savoir, k et b valeur).

En second lieu, la régression linéaire

modèle de régression linéaire (expression mathématique) est défini comme suit: . \ [f (x) = \ sum_ \ Limits 1} ^ {n-I = \ omega_ix_i + \ omega O = \ omega O + \ omega_1x_1 + \ + ... + omega_2x_3 \ omega_nx_n \] , avec la matrice

Montre que \ (F (X) = XW \) , où \ (X = \ begin {bmatrix } 1 & x 1 & x 2 & ... & x_n \ end {bmatrix}, W = \ begin {bmatrix} \ omega_0 \\\ omega_1 \\. \\ .. omega_n \\\ \ bmatrix end {} \) , \ (X- \) est augmentée vecteur caractéristique, \ (W est \) est augmentée vecteur de poids. La régression linéaire est le processus de résolution du vecteur de poids Augmentée.

régression linéaire simple exemple 2.1

Pour trouver le vecteur de poids Augmentée, il faut d' abord procéder à un échantillonnage, en supprimant certaines des données représentatives des problèmes que nous avons à l' étude. Par exemple, je veux prédire les prix près de l' Université de Wuhan, je dois d' abord trouver la région près de l' Université de Wuhan au cours des dernières années de données de prix ( à partir de : la salle dans le monde ). Nous avons donc fait une série d'échantillons, les échantillons de données qui comporte deux dimensions, à savoir le temps et le prix (et en fait, les prix des maisons , en plus de ces deux facteurs, ainsi que beaucoup, planchers, environnement résidentiel, la propriété et d' autres facteurs connexes, ici nous il est l'étude de la relation entre le temps et les prix, de sorte que le prix devrait se référer aux prix moyens). Alors que nous pouvons construire un système de coordonnées cartésiennes en deux dimensions système, l'axe horizontal représente le temps et l'axe vertical représente le prix moyen. Comme indiqué ci - dessous:

image

Code est la suivante:

# -*- coding: utf-8 -*
import numpy as np
import pandas as pd
from datetime import datetime 
from matplotlib import pyplot as plt
import matplotlib.dates as mdates

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']= False 

x = ['2018-11','2018-12','2019-01','2019-02','2019-03','2019-04','2019-05','2019-06','2019-07','2019-08','2019-09','2019-10']
y = np.array([20128, 20144, 20331, 20065, 20017, 19972, 19902, 19706, 19997, 20057, 20213, 20341])
x = [datetime.strptime(d, '%Y-%m') for d in x]

plt.title("武汉市洪山区平均房价")
plt.ylim((19500, 20500))
plt.ylabel(u'平均房价(元/平方米)')
plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m'))#设置时间标签显示格式
plt.gca().xaxis.set_major_locator(mdates.MonthLocator())
plt.plot(x,y,'.')
plt.xlabel(u'月份(2018.11-2019.10)')
plt.gcf().autofmt_xdate()
plt.show()

Si l'affichage ne peut pas être chinois, s'il vous plaît se référer à savoir presque répondu à la première .

La régression linéaire est résolu comme une forme de y = kx + b viennent ces raccord droit dispersion. Ci-dessous, il y a un des points d'échantillonnage bleu-vert pour toutes les lignes droites ont été montées. L'effet de mise en place d'une ligne droite qui est mieux?

image 20191020174321750

Intuitivement, la ligne bleue directement au premier point et le dernier point de lien (en fait, le code que je fais aussi), la ligne verte est le point de la cinquième et avant-dernier directement reliés entre eux (réel code, je ne fais pas ça se trouve juste à l'affichage de l'image). Le point le plus au-dessous de la ligne bleue, et les lignes en pointillés sur les deux côtés du vert sensiblement égalisées. Donc, on peut penser à peu près bonne ligne verte de l'effet approprié que la ligne bleue. C'est mathématiques du secondaire (physique), le parle souvent quand faire les points d'ajustement des échantillons uniformément répartis sur les deux côtés de la ligne droite (il y a une règle que les points de données erronées clairement être mis au rebut).

La régression linéaire erreur 2.1

régression linéaire, nous voulons trouver une meilleure ligne d' ajustement, la façon de déterminer la ligne de meilleur ajustement est pas? Ici , nous avons un concept --- conduit à l' erreur. erreur junior physique est définie comme étant la différence entre la valeur mesurée et la valeur réelle, l' analyse de régression, on peut définir une valeur de prédiction d'erreur grossière en soustrayant la valeur réelle, représentée mathématiquement \ [e = ÿ_à-y_p ( a représente réel , p représente prédite) \] \ (ÿ_à \) est l'ordonnée de points d' échantillonnage, \ (y_p \) est le point de la ligne correspondant à l'ordonnée. (En fait, plus précisément définie comme l'erreur de distance euclidienne décrit par régression linéaire, une ligne se trouve, tous les points d'échantillonnage droite de telle sorte que la distance minimale euclidienne à la ligne.) Solution de ligne de meilleur ajustement, et que l'erreur est \ (\ sum_ \ limites {i = 1} ^ ne_i \) au cours de la ligne de minimum. La régression linéaire, on utilise la fonction de perte \ (J (w) \) pour mesurer l'erreur et la grandeur, généralement , nous utilisons l'erreur quadratique moyenne en fonction de la perte, représentée mathématiquement comme \ (J (w) = \ cfrac {1 n-} {} \ sum_ \ limites. 1} ^ {n-I = (ÿ_à-y_p) ^ 2 \) , pour l'erreur quadratique moyenne, on minimise généralement fonction de perte en utilisant la méthode des moindres carrés.

Je suppose que tu aimes

Origine www.cnblogs.com/liyier/p/12516646.html
conseillé
Classement