機械学習の実用的な - 研究ノート(B)

第II章- K -最近傍

IMG

はじめアルゴリズム(k近傍)

K -最近傍分類データは、最も簡単で効果的なアルゴリズムである、K異なる特徴の測定値との間の距離の方法を使用して分類されています

アルゴリズムの原理は:また、トレーニングサンプルセットとして知られているサンプルデータセットは、そこにあり、各データのサンプルセットは、我々は、データとカテゴリ間の各サンプルセットの対応を知っていることを、ラベルが存在しています。ラベルなしで新しいデータを入力した後、特徴データは、それぞれの新しいデータサンプルの特性に対応するデータは、サンプル(最近傍)クラスラベルに最も類似している、請求フォーカス、次いで濃縮抽出アルゴリズムを比較します。

最後に、選択kの新しいデータの分類として、最も類似現れる分類されたデータの最大数。

K -最近傍アルゴリズムの擬似コード

未知のクラス属性データセット上の各点を順次、次の操作を実行します。

(1)クラスのデータセットと現在の点既知点の間の距離を計算します

(2)から昇順にソート

(3)現在の点までの最小距離を選択し、K(点kが得られます)

以前の決定(4)Kの発生頻度点場合カテゴリ

(5)第一返しk個の点は、現在のカテゴリ分類ポイント予測として最も頻繁に現れます

算出した距離L2(ユークリッド距離)

Nの固有値
D 1 2 = Σ P = 1 N 1 P - 2 P 2 D(I_ {1}、I_ {2})= \ SQRT {\ sum_ {P = 1} ^ {N}(I_ {1} ^ {P} -I_ {2} ^ {P})^ {2} }

K -一般的なプロセスの最近傍アルゴリズム

(1)データ収集:任意の方法を用いることができます。

(2)製造データ:距離が所望の値、好ましくは、構造化データフォーマットを算出します。

(3)データ分析:任意の方法を用いることができます。

(4)学習アルゴリズム:この手順は適用されませんK -最近傍を。

(5)テストアルゴリズム:計算エラーレート。

(6)アルゴリズムを使用して:出力サンプルデータを入力する最初の必要性と構成し、実行Kを -最近傍アルゴリズムは、入力データは、それぞれのカテゴリのどれに属し、そして最終的にその後の処理のアプリケーションを分類を算出するために実行されることを決定します。

アルゴリズムの欠陥

1. K -最近傍トレーニングデータセットが大きい場合、あなたは収納スペースの多くを使用する必要があり、データセット全体を保存する必要があります。それは、各データ・セットの距離値を算出する必要があるので、それは非常に時間がかかり実用にすることができます。

2. K -私たちがどのような特性の代表例とサンプルとサンプルの平均インスタンスを知ることができないので、最近傍は、任意のデータの情報インフラストラクチャを与えることができません。

アルゴリズムの例

import matplotlib.pyplot as plt
import numpy as np

元のデータの導入

# load data from file导入txt数据
def load_data(filename):
    dataset = []
    label = []
    file = open(filename)
    for line in file.readlines():  # 逐行读取
        lineArr = line.strip().split('\t')  # 分割字符串
        dataset.append(lineArr[0:3])  # 前三列为数据
        label.append(lineArr[-1])  # 最后一列为标签
    return np.array(dataset, dtype=np.float64),\
        np.array(label, dtype=np.int)  # 返回值为数据和标签的数组


data, label = load_data("datingTestSet2.txt")
print(data.shape, label.shape)  # 打印数组规模

(k最近傍アルゴリズムの直感的な理解を持つ)生データプロファイルを描きます

def plot(x, y):
    label1 = np.where(y.ravel() == 1)
    plt.scatter(x[label1, 0], x[label1, 1], marker='x',
                color='r', label='didnt like=1')
    label2 = np.where(y.ravel() == 2)
    plt.scatter(x[label2, 0], x[label2, 1], marker='*',
                color='b', label='smallDoses=2')
    label3 = np.where(y.ravel() == 3)
    plt.scatter(x[label3, 0], x[label3, 1], marker='.',
                color='y', label='largeDoses=3')
    plt.xlabel('pilot distance')
    plt.ylabel('game time')
    plt.legend(loc='upper left')
    plt.title("Raw data")
    plt.show()


plot(data, label)

データの前処理

正規化された理由:L2距離の式を使用する場合、属性データに大きな差、衝撃の計算結果が大きい場合には、しかしながら、固有値の重い重量は、現実に応じて調整されるべきです。プロパティは、それほど頻繁に真剣に結果に影響するべきではありません。

# 因为特征数据的范围不一样,所以需要归一化
# 公式:newvalue = (oldvalue - min) / (max - min)
# 这里将数据变成0-1之间,而不是0中心化


def normalFeature(x):
    x_min = np.min(x, axis=0)
    x_max = np.max(x, axis=0)
    x_new = (x - x_min) / (x_max - x_min)
    return x_new, x_min, x_max


x_new, x_min, x_max = normalFeature(data)
print(x_new.shape)
print(x_min)

手動でのk最近傍を実装

class KNearestNeighbor(object):
    # 输入训练数据集
    def train(self, X, y):
        self.X_train = X
        self.y_train = y

    # 预测测试数据的分类结果
    def predict(self, X_test, y_test, k=1, display=True):
        dist = self.distance(X_test)
        num_test = X_test.shape[0]
        y_pred = np.zeros(num_test)
        for i in range(num_test):
            closest_y = []
            closest_y = self.y_train[np.argsort(dist[i])[:k]]
            y_pred[i] = np.argmax(np.bincount(closest_y))
            # 每过10次输出一次测试结果
            if (i % 10 == 0) & display:
                print("prediction is %d,the real is %d" %
                      (y_pred[i], y_test[i]))
        return y_pred

    # 将测试数据按照特征值与训练数据进行L2距离计算
    def distance(self, X_test):
        num_test = X_test.shape[0]
        num_train = self.X_train.shape[0]

        dist = np.zeros((num_test, num_train))
        for i in range(num_test):
            dist[i] = np.sqrt(
                np.sum(np.square(self.X_train - X_test[i]), axis=1))
        return dist

除算トレーニングセット・テスト・セット、テストとトレーニング

# 划分训练和测试集合
rate = 0.1  # 划分的概率
m = data.shape[0]
m_test = int(m * rate)
x_train = x_new[m_test:m, :]
y_train = label[m_test:m]
x_test = x_new[0:m_test, :]
y_test = label[0:m_test]
print(x_train.shape, x_test.shape)
print(y_train.shape, y_test.shape)


# 训练测试一下
classify = KNearestNeighbor()
classify.train(x_train, y_train)
y_test_pred = classify.predict(x_test, y_test, k=3)
# 输出测试准确率
acc = np.mean(y_test == y_test_pred)
print("the test accuracy is ", acc)

アルゴリズムを使用して

result = ["didnt like", "small dose", "large dose"]
input = np.array([[10000, 10, 0.5]])
# 一定记得使用train_set的min和max把数据标准化
input_new = (input-x_min) / (x_max - x_min)
pred = classify.predict(input_new, y_test, k=3, display=False)
print(pred)
print("you will probablly like this person:", result[int(pred[0])-1])

プログラムとデータ

リンクします。https://pan.baidu.com/s/16G2uSqzng_uPVM96Mxp08g
抽出コード:gv19

リリース元の4件の記事 ウォンの賞賛5 ビュー1536

おすすめ

転載: blog.csdn.net/qq_43699254/article/details/104641096