每周周报-7.30-8.04

周报
2018.7.30-2018.8.04

本周的工作-学习:

      本周一直在补机器学习的专业知识,通过看机器学习的书和上暑假培训的课,另外还有看吴恩达的论文Latent Dirichlet allocation。
1.  每天的详细内容如下:
a)  7.30日一整天都在看决策树的相关知识点。
b)  7.31日上暑期培训的数字图像处理的课,大致了解了这是什么方向,另外还看了线性回归的相关知识点。
c)  8.1日组会,搞定了决策树的知识点开始看朴素贝叶斯是什么。
d)  8.2日老师让看LDA,粗略的看了一眼,就去找中文翻译的的LDA了,才明白这是一篇讲主题概率分布的论文。晚上继续看了朴素贝叶斯里面的垃圾邮件的例子,开始有点明白贝叶斯的公式了。
e)  8.3日上暑期培训的矩阵和概率论课,大致又复习了一遍概率论,并且对师兄讲的矩阵分解里面的推荐系统有所了解。继续看论文LDA,并且看逻辑回归的知识。
f)  8.4日上暑期培训的迁移学习的课,发现迁移学习真是个好东西。

2.  本周学习内容汇总:
a)  《机器学习与实战》看完并且实践完第三章决策树、第四章朴素贝叶斯、第五章逻辑回归部分内容。
b)  暑期培训了解了很多方向,包括数字图像和迁移学习,以及加深了矩阵和概率论的相关知识点。
c)  看论文LDA,目前还处于看不懂这是什么的状态。

3.  关于本周学习心得小结:
a)  本周一直都在学习机器学习的相关概念,感觉跨过了上个礼拜的那种不知道怎么下手学习的茫然期,上个礼拜对于要学什么,怎么学有点迷茫,但是这个礼拜懂了只管去做就好,所以这个礼拜学习劲头很足,学到的、了解到的内容很多。
b)  这个礼拜碰上不会的东西一直在问边上的师弟,感觉问问题才能真的懂,不然有问题也不问就变成不懂装懂了。虽然师弟比自己小一级,感觉作为一个师姐老问问题会不会有点丢人,但是人家就是比自己强啊,这是不得不承认的事实,所以也不觉得丢人了,希望早点赶上他们的进度吧。问到了学到了才是真理。
c)  觉得慢慢的听多看多了一些概念,在上暑期培训的时候,真的开始可以听懂一些(也有可能是暑期培训讲的东西太基础。。。)
d)  通过这些天的学习,才发现矩阵和概率的知识点在机器学习里面真的是非常重要。

下周的计划:

1.  把论文LDA基本看懂
2.  下周的暑期培训课程有三天(强化学习、计算机视觉与深度学习、文本预处理与文本表示)
3.  《机器学习与实战》看完并且实践完第五章“逻辑回归”、第六章支持向量机

暑期培训上课总结笔记(我所理解的):

      以下是暑期培训每一堂课学习到的东西,虽然很多公式看不懂,但是基本了解了每一个内容或者方向是什么。
迁移学习
      迁移学习对于人类来说,就是举一反三地学习能力,比如我们学会骑自行车了,则学骑摩托车就变得很简单了。对于计算机而言,迁移学习就是想要让现有的模型算法稍加调整然后可以应用于一个新的领域。
      在传统机器学习里面,要满足两个基本假设,即训练样本与测试样本必须满足独立同分布和有足够的可利用的训练样本假设,但是现实情况是很难满足这两个基本假设的。比如公司开设新业务,但没有足够的数据建立模型进行用户推荐。而迁移学习是利用已有的知识来解决目标领域中仅有少量有标签样本数据甚至是没有数据的学习问题,从根本上放宽了传统机器学习的基本假设。迁移学习可以将适用于大数据的模型迁移到小数据上,发现问题的共性,从而将通用的模型迁移到个性化的数据上,实现个性化迁移。
      比如在推荐系统里面,我们可以在某个领域做好一个推荐系统,然后应用在没有这个数据的领域。比如把已经成熟完善的电影推荐系统应用在书籍推荐系统里面去。再比如在对话系统里面,先训练一个通用型的对话系统,然后再在特定领域修正它,使得这个对话系统适用于特定领域的任务。
      另外,迁移学习的一般化定义是在给定的源域和在源域上的学习任务训练,再去预测目标域和目标域上的任务。而迁移学习的分类又分为两个大类,一个是按特征空间分(同构、异构),一个是按迁移情景分(归纳式、直推式、无监督)。并且迁移学习的方法有样本迁移、特征迁移、模型迁移。
    感觉迁移学习能够解决数据稀缺性的问题,应用场景非常多,还是非常棒的。

数字图像处理:
      数字图像是为了能用计算机对图像进行处理,需要把连续的图像在坐标空间XY和性质空间F都离散化,这种离散化的图像就是数字图像,可以分为彩色图像和灰度图像。一幅图像可以用二维数字f(x,y)表示,而f代表的是点(x,y)的某种性质的值,如灰度值。
      数字图像分为黑白图像(二值图像的像素为0或者1)、灰度图像(像素值在0-255之间)、彩色图像(RGB的取值都是0-255)。
      而图像处理又分为图像变换、图像的压缩、图像的增强和复原、图像的分割。并且数字图像在医学、科学、国防等很多地方都有应用。
      师兄着重讲了如何对图像进行预处理,预处理指的是在处于低抽象层次的图像上进行操作,目的是改善图像数据,抑制不需要的变形或者增强某些对于后续处理重要的图像特征。图像预处理的分类分为像素亮度变化(灰度级变换和直方图变换)、几何变化(包括平移、镜像、缩放和旋转)、局部预处理(降低图像噪点)以及图像复原(针对图像退化而言)四类。
      还着重讲了图像分割,就是把图像空间分成一些有意义的区域,与图像中各种物体目标相对应。而它是一个像素分类的过程(聚类)。一般的图像分割技术有基于像素灰度值的分割技术、基于区域的分割技术和基于边界的分割技术。
      师兄这样子讲下来,感觉数字图像还是挺简单的,目前有很多人在做这一块。但是已经被太多人研究了。

矩阵和概率论:
      师兄在讲解矩阵的时候,为了详细的展示矩阵这个知识点在机器学习里面的应用,讲了一个基于矩阵分解的推荐系统的例子。给定一个用户评分表,通常是一个很大的矩阵,m行n列,m代表用户的个数,n代表项目的个数。并且这个矩阵一般是非常稀疏的,因为用户只会评价少部分的项目(比如对每一部电影的评分),因而矩阵里面会存在很多的O代表的是用户从来没有对此项目进行评价或者打分,所以我们很难了解用户对相应项目的偏好情况。所以这个时候可以把这个矩阵分解,通过用户已有的评分来预测用户未打分或者评价项目的评价情况,通过矩阵分解则能挖掘用户的潜在因子和项目因子,来估计缺失值。(比如分解的两个矩阵一个是显示该用户是动作片迷、喜剧片迷等,另一个矩阵则进行打分,则可以显示出用户的偏好情况)。矩阵分解智能得到近似的结果,不可能完全等于原来的矩阵,并且需要迭代非常多次才能完成。

猜你喜欢

转载自blog.csdn.net/qiqi123i/article/details/81414244