机器学习之路(二)

       大数据目前应用广泛,在我看来,现在社会,数据无处不在。大数据是以数据为核心,是一个围绕大数据生命周期不断循环往复的生产过程,但也需要很多行业协作和配合。

       数据主要分为:收集、存储、建模、分析和产品输出几个阶段。目前,收集是通过各种软件应用收集或者设备收集;存储通过网络,云计算进行存储,通过数据科学家或者行业专家进行建模或者加工,最后数据分析得到知识,最终输出产品,提供给用户的完整过程。

      目前大数据人才主要分为三类:一类是基建和架构;二类是建模与分析;三类是应用实现。

      3月份主要阅读了高扬等编写的《白话大数据与机器学习》,这本书通俗易懂。学到了:统计与分布相关概念、指标问题、信息论相关概念、多维向量空间、回归问题、聚类问题、分类问题、关联分析、用户画像、推荐算法、文本挖掘、人工神经网络、了解大数据的框架、大数据的系统架构与调优问题、数据解读与数据的价值。

      4月份主要阅读了吴军等编写的《数学之美》,这本书内容丰富,信息量足,但是把很多概念都分析出来了。主要内容有:文字和语言讲述了数字和信息关系;统计让自然语言处理走出了很好的路;描述了统计语言模型;分词的原则;隐含马尔科夫模型在语音和语言方面的应用;信息的度量和作用,为通信、数据压缩、自然语言处理、在机器学习算法决策树等应用广泛;布尔代数和搜索引擎的关系;图论和网络爬虫,这是离散数学的经典应用。pagerank网页排名技术及计算方法,背后是大量的矩阵分解与矩阵运算,理解了TF-IDF信息论的含义;动态规划和有线状态机之间的关系;余弦定理在相似度分析中的广泛应用;矩阵运算和文本处理中的分类问题(词袋和主题的作用);信息指纹及其应用,为我们查找信息提供了有效算法;密码学基础;搜索引擎要注意的问题;最大熵模型和最大熵原理;拼音输入法建立在统计之上的;布隆过滤器为信息指纹及其应用;贝叶斯网络;条件随机场、文法分析;维特比算法;期望最大化算法;逻辑回归和搜索广告;分治算法是MapReduce的基础;人工神经网络与google大脑。

猜你喜欢

转载自blog.csdn.net/weixin_42039090/article/details/80501107