《大数据日知录》读书笔记-ch12机器学习：范型与架构 - 代码天地

《大数据日知录》读书笔记-ch12机器学习：范型与架构

其他 2019-04-09 23:51:21 阅读次数: 0

机器学习算法特点：迭代运算

损失函数最小化训练过程中，在巨大参数空间中迭代寻找最优解

比如：主题模型、回归、矩阵分解、SVM、深度学习

分布式机器学习的挑战：

- 网络通信效率

- 不同节点执行速度不同：加快慢任务

- 容错性

机器学习简介：

数据并行vs模型并行：

数据并行

模型并行

分布式机器学习范型：

其他情形

MPI：容错性差、集群规模小、扩展性低

GPU：目前处理规模中等（6-10GB）

1. 同步范型（严格情形每轮迭代进行数据同步）

快等慢，计算资源浪费；网络通信多

eg：MapReduce迭代计算、BSP模型属于严格同步范型

2. 异步范型（任意时刻读取更新全局参数）

若部分任务迭代严重落后会拉低效果

3. 部分同步范型（主要研究方向）

eg：SSP模型

MapReduce迭代计算模型

BSP（Bulk Synchronous Parallel）计算模型

“桥接模型”：介于纯硬件、纯编程模式之间的模型

许多相关工作已验证BSP模型的健壮性、性能可预测性和可扩展性

优点：

缺点：

资源利用率低、网络通信多、计算效率低

图计算框架也用BSP：比如Pregel、Giraph

SSP（Stale Synchronous Parallel）计算模型

阈值s=0时，SSP退化为BSP同步模型；s=+inf时，SSP演化为完全异步模型

分布式机器学习架构：

MapReduce系列架构：

Cloudera Oryx、Apache Mahout，两者类似。

Spark及MLBase：

Spark

2. MLBase

参数服务器（Parameter Server）：

比如：Google能处理百亿参数的深度机器学习框架DistBelief

1. 架构

2. 一致性模型

需要设计新型的参数副本一致性均衡正确性和并发度。往往通过受限的异步并行方式（类似于部分同步并行）

1）时钟界异步并行（Clock-bounded Asynchronous Parallel，CAP）

2）值界异步并行（Value-bounded Asynchronous Parallel，VAP）

不考虑时钟值而是参数的更新积累数值。

也可以集成CAP和VAP。有理论可以证明：对于随机梯度下降等常见机器学习算法，VAP可以保证算法收敛性。

3. SSPTable

猜你喜欢

转载自www.cnblogs.com/yaoyaohust/p/10680216.html

《大数据日知录》读书笔记-ch12机器学习：范型与架构

《BIG DATA大数据日知录架构和算法》读书笔记

《大数据日知录》读书笔记 + 回顾补充（20190716 - 2019MMdd）

二. 大数据常用的算法和数据结构 <<大数据日知录>> 读书笔记

大数据日知录

图解机器学习读书笔记-CH2

图解机器学习读书笔记-CH4

图解机器学习读书笔记-CH6

C Primer Plus学习笔记 —— Ch12 存储类别、链接和内存管理

【读书笔记】大数据平台基础架构指南

读书笔记之《七周七语言——理解多种编程范型》Ruby语言学习

博主新书：《大数据日知录：架构与算法》目录

读书笔记——机器学习

《机器学习》—读书笔记

大数据日知录——数据分片和路由（一）

大数据日知录 - 算法与数据结构 - 1

《数据挖掘-实用机器学习技术》读书笔记

范型（Generics）学习笔记

TS学习笔记(范型)

【架构-读书笔记】架构即未来-第12章

大数据读书笔记（1）

【读书笔记】大数据时代

读书笔记-Hadoop大数据shuffle

读书笔记-Hadoop大数据小结

机器学习（西瓜书）-- 读书笔记

机器学习读书笔记（一）

机器学习读书笔记（五）AdaBoost

机器学习读书笔记（六）

《机器学习实战》读书笔记

机器学习实战-读书笔记(一)

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)