版权声明:送人玫瑰,手有余香,一分也是爱 https://blog.csdn.net/m0_37156901/article/details/86670911
前言
还是老话,本篇以实战为主,详细的算法步骤和公式推导很重要,必须同时找多篇对比才能融会贯通,以下是我看过的几篇博客,很牛逼,网址如下:
机器学习实战: https://www.cnblogs.com/zy230530/p/6780836.html
算法概述总结
* 解决问题: 给路径距离增加权重
接下来进行实战代码部分
1. KNN算法比较简单,核心就是距离公式,代码表示如下:
# 算法核心思想,就是一个公式,计算距离
import math
def ComputeEuclideanDistance(x1, y1, x2, y2):
d = math.sqrt(math.pow((x1-x2), 2) + math.pow((y1-y2), 2))
return d
d_ag = ComputeEuclideanDistance(3, 104, 18, 90)
print (d_ag) # 20.518284528683193
2. 下面一个是利用sklearn自带的库进行实现
# 这是第一种方法, 依赖库实现
from sklearn import neighbors
from sklearn import datasets
knn = neighbors.KNeighborsClassifier()
iris = datasets.load_iris()
# print(iris)
# print(iris.target)
knn.fit(iris.data, iris.target)
predictedLabel = knn.predict([[6.9, 5.9, 8.9, 4.8]])
print(predictedLabel) # [2]
3. 自己从零实现KNN算法(*)
import csv # 操作数据的模块
import random
import math
import operator # operator导入运算符模块
# 1 加载数据
def loadDataset(filename, split, trainingSet = [], testSet = []): # 参数分别:文件名,训练和测试集合的分割点,训练和测试集
# _csv.Error: iterator should return strings, not bytes
# 这里会报错 -- open(fn, r/rt/rb) -- r/ 默认 。rt/ 文本模式
# 因为此csv文件并非二进制文件, 只是一个文本文件。
with open(filename, 'rt') as csvfile:
lines = csv.reader(csvfile)
dataset = list(lines) # 循环每行保存到 dataset
for x in range(len(dataset)-1): # len(dataset)-1 是数据的行数
for y in range(4): # 4 是特征的格式, 列数
dataset[x][y] = float(dataset[x][y]) # 格式化数据
if random.random() < split: # 随机生成 0 - 1 的数,数据集分为训练和测试集
trainingSet.append(dataset[x])
else:
testSet.append(dataset[x])
# 2 计算两个数据的距离
def euclideanDistance(instance1, instance2, length): # instance1, instance2, 两行数据 length:是特征的个数,本例四个
distance = 0 # 两点之间的距离初始化
for x in range(length): # 循环遍历计算每个特征之间的距离
distance += pow((instance1[x]-instance2[x]), 2) # 多维下, 两点之间的距离
return math.sqrt(distance)
# 3 从trainingSet集合中返回距离testInstance这个实例最近的k个label,
def getNeighbors(trainingSet, testInstance, k): # trainingSet: , testInstance:一个测试实例, k:k个值
distances = [] # 装载所有的距离,数组初始化
length = len(testInstance)-1 # 这个测试实例的维度
print(length)
for x in range(len(trainingSet)): # 遍历训练集,每次拿出训练集中的一条计算
#对于testInstance这个未知的数据,要计算它到每个训练元素数据的距离,
dist = euclideanDistance(testInstance, trainingSet[x], length)
distances.append((trainingSet[x], dist))
#distances.append(dist)
#将这些数据按距离进行排序
distances.sort(key=operator.itemgetter(1))
neighbors = [] # 存放前k个值
for x in range(k):
neighbors.append(distances[x][0])
return neighbors # 将这k个值返回
# 统计这前几个中每个分类的个数,并排序
def getResponse(neighbors):
classVotes = {} # 保存每一个分类的投票数有多少个
for x in range(len(neighbors)):
response = neighbors[x][-1] # 取所有行的最后一列。即所有的类别
if response in classVotes:
classVotes[response] += 1
else:
classVotes[response] = 1
# 按分类个数多少排序
# AttributeError: 'dict' object has no attribute 'iteritems'
# 之所以会出现上述错误是因为python3中已经没有这个属性,直接改为items即可:
# sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)
sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
return sortedVotes[0][0]
# 计算误差
def getAccuracy(testSet, predictions): # 1测试集合, 预期的结果集合
correct = 0
for x in range(len(testSet)): # 遍历测试数据集合的每行
if testSet[x][-1] == predictions[x]: # 取测试数据集合的每个数据对应得结果和预期的标签结果对比
correct += 1 # 统计出错数量
return (correct/float(len(testSet)))*100.0 # 错误数 / 测试总数
def main():
#prepare data
trainingSet = []
testSet = []
split = 0.67
loadDataset(r'irisdata.csv', split, trainingSet, testSet)
print( 'Train set: ' + repr(len(trainingSet)) )
print( 'Test set: ' + repr(len(testSet)) )
#generate predictions
predictions = []
k = 3
for x in range(len(testSet)):
# trainingsettrainingSet[x]
neighbors = getNeighbors(trainingSet, testSet[x], k)
# print(neighbors)
result = getResponse(neighbors)
predictions.append(result)
print ('>predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))
print ('predictions: ' + repr(predictions))
accuracy = getAccuracy(testSet, predictions)
print('Accuracy: ' + repr(accuracy) + '%')
main()
Train set: 89
Test set: 61
4
>predicted='Iris-setosa', actual='Iris-setosa'
4
>predicted='Iris-setosa', actual='Iris-setosa'
。。。。。
4
>predicted='Iris-virginica', actual='Iris-virginica'
4
>predicted='Iris-virginica', actual='Iris-virginica'
predictions: ['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-virginica', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-versicolor', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica', 'Iris-virginica']
Accuracy: 96.72131147540983%
Process finished with exit code 0