1 绪论:初识机器学习



1.1 机器学习能做些什么?

web 搜索、照片标记、反垃圾邮件等
让机器自己学习怎么解决问题
案例:
-数据库挖掘:Web点击数据,医疗记录,生物工程学
-不能直接操作的应用:自主式直升机,手写识别,大部分自然语言处理(NLP),计算机视觉
-  自定义程序: 亚马逊,Netflix产品推荐
-理解人类学习(大脑,真实AI)

1.2 机器学习是什么?

第一个定义来自Arthur Samuel:在进行特定编程的情况下,给予计算机学习能力的领域。
(他编写了一个程序,让其自己下棋)
另一个来自Tom Mitchell(卡内基梅隆大学):一个程序被认为能从经验E中学习,解决任务T,达到新能度量值P,当且仅当,有了经验E后,进过P评判,程序在处理T是性能有所提升。(拿下棋来说,程序进行了上万次的自我练习获得经验E,而任务T就是下棋,P就是比赛时,赢得比赛的概率)

1.3 监督学习

基本思想:数据集中每个样本都有相应的”正确答案“,再根据这些样本作预测,
-回归问题: 通过回归来推出一个连续的输出,如房价预测
-分类问题:目标是推出一组离散的结果,如肿瘤良性与否

1.4 无监督学习


基本思想:没有提前告知算法,数据类型等信息,只有一些数据,你能自动的找到数据中的结构吗?就是要自动聚类到个体到各个类中。
-聚类算法: 不同于监督学习,无监督学习中,没有任何的标签伙食有相同的数据标签,针对数据集,无监督学习能判断出数据有两个不同的聚集簇,找出二者不同,无监督学习算法可能吧数据分成两个不同的簇,所以叫做聚类算法。
  应用:1 如在谷歌新闻中,将不同主题的新闻自动聚类到一起
             2 DNA 微观数据中,输入一组不同个体,对每个个体,分析其是否有一个特定基因,颜色展示了相应的程度,运行算法,将个体聚类到不同类型的组中。
无监督学习应用于大量领域:
1 用于组织大型计算机集群:
2 社交网络分析: 根据经常发email,facebook的朋友,谷歌的朋友,各类圈子的朋友    自动分组
        3 市场分类:检索顾客数据集,自动的发现市场分类,自动将顾客划分到不同的市场        中,让算法从数据中发现
         4 天文数据分析: 解释星系是如何诞生的?
这些都是聚类的例子,而聚类只是无监督学习中的一种
-鸡尾酒宴问题cocktail party problem
 

         两个人在说话,放两个麦克风录音,听起来两份录音被叠加在一起,如何分离出两个不同的声音呢?

事实上,只需要一行代码:
[W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x'
建议使用Octave编程环境,在硅谷, 对大量机器学习算法:
第一步:使用Octave做学习算法的 原型搭建(Octave中内置各种函数如SVM,已经建好了,借助c++或java的话会需要很多代码,十分复杂)
第二步:让它工作后,再移植到c或Java或别的语言上,会更快更有效率








1.1 机器学习能做些什么?

web 搜索、照片标记、反垃圾邮件等
让机器自己学习怎么解决问题
案例:
-数据库挖掘:Web点击数据,医疗记录,生物工程学
-不能直接操作的应用:自主式直升机,手写识别,大部分自然语言处理(NLP),计算机视觉
-  自定义程序: 亚马逊,Netflix产品推荐
-理解人类学习(大脑,真实AI)

1.2 机器学习是什么?

第一个定义来自Arthur Samuel:在进行特定编程的情况下,给予计算机学习能力的领域。
(他编写了一个程序,让其自己下棋)
另一个来自Tom Mitchell(卡内基梅隆大学):一个程序被认为能从经验E中学习,解决任务T,达到新能度量值P,当且仅当,有了经验E后,进过P评判,程序在处理T是性能有所提升。(拿下棋来说,程序进行了上万次的自我练习获得经验E,而任务T就是下棋,P就是比赛时,赢得比赛的概率)

1.3 监督学习

基本思想:数据集中每个样本都有相应的”正确答案“,再根据这些样本作预测,
-回归问题: 通过回归来推出一个连续的输出,如房价预测
-分类问题:目标是推出一组离散的结果,如肿瘤良性与否

1.4 无监督学习


基本思想:没有提前告知算法,数据类型等信息,只有一些数据,你能自动的找到数据中的结构吗?就是要自动聚类到个体到各个类中。
-聚类算法: 不同于监督学习,无监督学习中,没有任何的标签伙食有相同的数据标签,针对数据集,无监督学习能判断出数据有两个不同的聚集簇,找出二者不同,无监督学习算法可能吧数据分成两个不同的簇,所以叫做聚类算法。
  应用:1 如在谷歌新闻中,将不同主题的新闻自动聚类到一起
             2 DNA 微观数据中,输入一组不同个体,对每个个体,分析其是否有一个特定基因,颜色展示了相应的程度,运行算法,将个体聚类到不同类型的组中。
无监督学习应用于大量领域:
1 用于组织大型计算机集群:
2 社交网络分析: 根据经常发email,facebook的朋友,谷歌的朋友,各类圈子的朋友    自动分组
        3 市场分类:检索顾客数据集,自动的发现市场分类,自动将顾客划分到不同的市场        中,让算法从数据中发现
         4 天文数据分析: 解释星系是如何诞生的?
这些都是聚类的例子,而聚类只是无监督学习中的一种
-鸡尾酒宴问题cocktail party problem
 

         两个人在说话,放两个麦克风录音,听起来两份录音被叠加在一起,如何分离出两个不同的声音呢?

事实上,只需要一行代码:
[W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x'
建议使用Octave编程环境,在硅谷, 对大量机器学习算法:
第一步:使用Octave做学习算法的 原型搭建(Octave中内置各种函数如SVM,已经建好了,借助c++或java的话会需要很多代码,十分复杂)
第二步:让它工作后,再移植到c或Java或别的语言上,会更快更有效率








猜你喜欢

转载自blog.csdn.net/weixin_40599519/article/details/79432398
今日推荐