分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

【机器学习算法实现】系列文章将记录个人阅读机器学习论文、书籍过程中所碰到的算法，每篇文章描述一个具体的算法、算法的编程实现、算法的具体应用实例。争取每个算法都用多种语言编程实现。所有代码共享至github：https://github.com/wepe/MachineLearning-Demo 欢迎交流指正！

（1）kNN算法_手写识别实例——基于Python和NumPy函数库

1、kNN算法简介

kNN算法，即K最近邻(k-NearestNeighbor)分类算法，是最简单的机器学习算法之一，算法思想很简单：从训练样本集中选择k个与测试样本“距离”最近的样本，这k个样本中出现频率最高的类别即作为测试样本的类别。下面的简介选自wiki百科：http://zh.wikipedia.org/wiki/%E6%9C%80%E8%BF%91%E9%84%B0%E5%B1%85%E6%B3%95

方法

目标：分类未知类别案例。
输入：待分类未知类别案例项目。已知类别案例集合D ，其中包含 j个已知类别的案例。
输出：项目可能的类别。

步骤

如下图
我们考虑样本为二维的情况下，利用knn方法进行二分类的问题。图中三角形和方形是已知类别的样本点，这里我们假设三角形为正类，方形为负类。图中圆形点是未知类别的数据，我们要利用这些已知类别的样本对它进行分类。

k近邻算法例子示意图

分类过程如下：
1 首先我们事先定下k值（就是指k近邻方法的k的大小，代表对于一个待分类的数据点，我们要寻找几个它的邻居）。这边为了说明问题，我们取两个k值，分别为3和5；
2 根据事先确定的距离度量公式（如：欧氏距离），得出待分类数据点和所有已知类别的样本点中，距离最近的k个样本。
3 统计这k个样本点中，各个类别的数量。如上图，如果我们选定k值为3，则正类样本（三角形）有2个，负类样本（方形）有1个，那么我们就把这个圆形数据点定为正类；而如果我们选择k值为5，则正类样本（三角形）有2个，负类样本（方形）有3个，那么我们这个数据点定为负类。即，根据k个样本中，数量最多的样本是什么类别，我们就把这个数据点定为什么类别。

补充：

优缺点：

（1）优点：

算法简单，易于实现，不需要参数估计，不需要事先训练。

（2）缺点：

属于懒惰算法，“平时不好好学习，考试时才临阵磨枪”，意思是kNN不用事先训练，而是在输入待分类样本时才开始运行，这一特点导致kNN计算量特别大，而且训练样本必须存储在本地，内存开销也特别大。

K的取值：

参数k的取值一般通常不大于20。——《机器学习实战》

2、手写识别实例

kNN算法主要被应用于文本分类、相似推荐。本文将描述一个分类的例子，是《机器学习实战》一书中的实例，使用python语言以及数值计算库NumPy。下面首先简单介绍本实例编程开发过程中所用到的python、numpy中的函数。

2.1 python、numpy函数

NumPy库总包含两种基本的数据类型：矩阵和数组，矩阵的使用类似Matlab，本实例用得多的是数组array。

shape()

shape是numpy函数库中的方法，用于查看矩阵或者数组的维素

>>>shape(array) 若矩阵有m行n列，则返回(m,n)

>>>array.shape[0] 返回矩阵的行数m，参数为1的话返回列数n

tile()

tile是numpy函数库中的方法，用法如下:

>>>tile(A,(m,n)) 将数组A作为元素构造出m行n列的数组

sum()

sum()是numpy函数库中的方法

>>>array.sum(axis=1)按行累加，axis=0为按列累加

argsort()

argsort()是numpy中的方法，得到矩阵中每个元素的排序序号

>>>A=array.argsort() A[0]表示排序后排在第一个的那个数在原来数组中的下标

dict.get(key,x)

python中字典的方法，get(key,x)从字典中获取key对应的value，字典中没有key的话返回0

sorted()

python中的方法

min()、max()

numpy中有min()、max()方法，用法如下

>>>array.min(0) 返回一个数组，数组中每个数都是它所在列的所有数的最小值

>>>array.min(1) 返回一个数组，数组中每个数都是它所在行的所有数的最小值

listdir('str')

python的operator中的方法

>>>strlist=listdir('str') 读取目录str下的所有文件名，返回一个字符串列表

split()

python中的方法，切片函数

>>>string.split('str')以字符str为分隔符切片，返回list

关于更多的numpy中的函数，可以查阅官网：http://docs.scipy.org/doc/

2.2 编程实现“手写识别”

手写识别的概念：是指将在手写设备上书写时产生的轨迹信息转化为具体字码。

手写识别系统是个很大的项目，识别汉字、英语、数字、其他字符。本文只是个小demo，重点不在手写识别而在于理解kNN，因此只识别0～9单个数字。

输入格式：每个手写数字已经事先处理成32*32的二进制文本，存储为txt文件。0～9每个数字都有10个训练样本，5个测试样本。训练样本集如下图：

打开3_3.txt这个文件看看：

上面的背景介绍完了，现在编程实现，大概分为 三个步骤 ：

（1）将每个图片（即txt文本，以下提到图片都指txt文本）转化为一个向量，即32*32的数组转化为1*1024的数组，这个1*1024的数组用机器学习的术语来说就是特征向量。

（2）训练样本中有10*10个图片，可以合并成一个100*1024的矩阵，每一行对应一个图片。（这是为了方便计算，很多机器学习算法在计算的时候采用矩阵运算，可以简化代码，有时还可以减少计算复杂度）。

（3）测试样本中有10*5个图片，我们要让程序自动判断每个图片所表示的数字。同样的，对于测试图片，将其转化为1*1024的向量，然后计算它与训练样本中各个图片的“距离”（这里两个向量的距离采用欧式距离），然后对距离排序，选出较小的前k个，因为这k个样本来自训练集，是已知其代表的数字的，所以被测试图片所代表的数字就可以确定为这k个中出现次数最多的那个数字。

第一步：转化为1*1024的特征向量。程序中的filename是文件名，比如3_3.txt

<span style="font-family:SimSun;font-size:18px;">#样本是32*32的二值图片，将其处理成1*1024的特征向量def img2vector(filename):    returnVect = zeros((1,1024))    fr = open(filename)    for i in range(32):        lineStr = fr.readline()        for j in range(32):            returnVect[0,32*i+j] = int(lineStr[j])    return returnVect</span>

第二步、第三步：将训练集图片合并成100*1024的大矩阵，同时逐一对测试集中的样本分类

<span style="font-family:SimSun;font-size:18px;">def handwritingClassTest():    #加载训练集到大矩阵trainingMat    hwLabels = []    trainingFileList = listdir('trainingDigits')           #os模块中的listdir('str')可以读取目录str下的所有文件名，返回一个字符串列表    m = len(trainingFileList)    trainingMat = zeros((m,1024))    for i in range(m):        fileNameStr = trainingFileList[i]                  #训练样本的命名格式：1_120.txt        fileStr = fileNameStr.split('.')[0]                #string.split('str')以字符str为分隔符切片，返回list，这里去list[0],得到类似1_120这样的        classNumStr = int(fileStr.split('_')[0])           #以_切片，得到1，即类别        hwLabels.append(classNumStr)        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)            #逐一读取测试图片，同时将其分类       testFileList = listdir('testDigits')           errorCount = 0.0    mTest = len(testFileList)    for i in range(mTest):        fileNameStr = testFileList[i]        fileStr = fileNameStr.split('.')[0]             classNumStr = int(fileStr.split('_')[0])        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)        if (classifierResult != classNumStr): errorCount += 1.0    print "\nthe total number of errors is: %d" % errorCount    print "\nthe total error rate is: %f" % (errorCount/float(mTest))</span>

这里面的函数classify()为分类主体函数，计算欧式距离，并最终返回测试图片类别：

<span style="font-family:SimSun;font-size:18px;">#分类主体程序，计算欧式距离，选择距离最小的k个，返回k个中出现频率最高的类别#inX是所要测试的向量#dataSet是训练样本集，一行对应一个样本。dataSet对应的标签向量为labels#k是所选的最近邻数目def classify0(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]                       #shape[0]得出dataSet的行数，即样本个数    diffMat = tile(inX, (dataSetSize,1)) - dataSet       #tile(A,(m,n))将数组A作为元素构造m行n列的数组    sqDiffMat = diffMat**2    sqDistances = sqDiffMat.sum(axis=1)                  #array.sum(axis=1)按行累加，axis=0为按列累加    distances = sqDistances**0.5    sortedDistIndicies = distances.argsort()             #array.argsort()，得到每个元素的排序序号    classCount={}                                        #sortedDistIndicies[0]表示排序后排在第一个的那个数在原来数组中的下标    for i in range(k):        voteIlabel = labels[sortedDistIndicies[i]]        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #get(key,x)从字典中获取key对应的value，没有key的话返回0    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) #sorted()函数，按照第二个元素即value的次序逆向（reverse=True）排序    return sortedClassCount[0][0]</span>

3、工程文件

整个工程文件包括源代码、训练集、测试集，可到github获取：github地址

进入use Python and NumPy目录，打开python开发环境，import kNN模块，调用手写识别函数：

因为我用的训练集和测试集都比较小，所以凑巧没有识别错误的情况：

给我老师的人工智能教程打call！http://blog.csdn.net/jiangjunshow

你好！这是你第一次使用 **Markdown编辑器** 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown: Text-to- HTML conversion tool
Authors: John; Luke

如何创建一个注脚

一个具有注脚的文本。²

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通过欧拉积分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

gantt
        dateFormat  YYYY-MM-DD
        title Adding GANTT diagram functionality to mermaid
        section 现有任务
        已完成               :done,    des1, 2014-01-06,2014-01-08
        进行中               :active,  des2, 2014-01-09, 3d
        计划一               :         des3, after des2, 5d
        计划二               :         des4, after des3, 5d

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：:

这将产生一个流程图。:

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件或者.html文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

mermaid语法说明 ↩︎
注脚的解释 ↩︎

【机器学习算法实现】kNN算法手写识别——基于Python和NumPy函数库

（1）kNN算法_手写识别实例——基于Python和NumPy函数库

1、kNN算法简介

方法

步骤

2、手写识别实例

2.1 python、numpy函数

2.2 编程实现“手写识别”

3、工程文件

给我老师的人工智能教程打call！http://blog.csdn.net/jiangjunshow

新的改变

功能快捷键

合理的创建标题，有助于目录的生成

如何改变文本的样式

插入链接与图片

如何插入一段漂亮的代码片

生成一个适合你的列表

创建一个表格

设定内容居中、居左、居右

SmartyPants

创建一个自定义列表

如何创建一个注脚

注释也是必不可少的

KaTeX数学公式

新的甘特图功能，丰富你的文章

UML 图表

FLowchart流程图

导出与导入

导出

导入

猜你喜欢

【机器学习算法实现】kNN算法 手写识别——基于Python和NumPy函数库

（1）kNN算法_手写识别实例——基于Python和NumPy函数库

1、kNN算法简介

方法

步骤

2、手写识别实例

2.1 python、numpy函数

2.2 编程实现“手写识别”

3、工程文件

给我老师的人工智能教程打call！http://blog.csdn.net/jiangjunshow

新的改变

功能快捷键

合理的创建标题，有助于目录的生成

如何改变文本的样式

插入链接与图片

如何插入一段漂亮的代码片

生成一个适合你的列表

创建一个表格

设定内容居中、居左、居右

SmartyPants

创建一个自定义列表

如何创建一个注脚

注释也是必不可少的

KaTeX数学公式

新的甘特图功能，丰富你的文章

UML 图表

FLowchart流程图

导出与导入

导出

导入

猜你喜欢

【机器学习算法实现】kNN算法手写识别——基于Python和NumPy函数库