实时机器学习是什么，面临哪些挑战？

最近能够随数据获取实时调整模型的实时机器学习，正在成为媒体技术领域的新“网红”。曾经连续两年，都被FTI评为传媒业的重要技术趋势之一，与自然语言理解NLU、机器阅读理解MRC、音视频算法等共享金字塔顶端的荣光。

那实时机器学习到底是什么呢？

　　在开启扒皮模式之前，我们先来了解一下，实时机器学习究竟在哪些地方比传统的机器学习更强？

　　传统的机器学习（ML）正在媒体领域得到越来越多的应用，利用算法实现内容的“个性化推荐”，已经成为主流媒体的标配。

　　但过去的算法，主要侧重于使用静态模型和历史数据进行训练并提供预测。比如用户在浏览网站时，可以根据用户历史行为数据来推送新闻。

　　而一些新的涉及动态实施决策的业务，比如具备时效性的热点新闻，或是用户想要看点新东西，这就需要用一种新的算法来实现，即实时机器学习Real-Time Machine Learning。

　　以头条的核心技术“个性化推荐算法”为例，其核心原理就是根据用户对文章的历史行为数据反馈，进行统计挖掘和判断。

　　比如具有相同偏好的三个用户，分别选择了自己喜欢的文章，得到最高票数的文章就会被推荐给被系统打上同一属性标签的第四个人……以此类推。

　　不难发现，传统机器学习算法的成功，依赖于对用户的“知根知底”，需要用户不断开放自己的私人领地。

　　而实时机器学习，更擅长对用户的当下需求体察入微，让用户在保持隐私安全感的同时，获得如沐春风的浏览体验。

显然，实时机器学习算法将主导一个令人期待的新世界，也有越来越多的媒体在为此做着准备。

实时机器学习技术的深入应用，将解锁很多超乎想象的媒体功能和应用场景。但是，尽管学界已经在算法上提出了几种理想的架构，但产业端却未迎来蓬勃的质变。这究竟是为什么？实时机器学习落地到底面临哪些挑战呢？

1. 高吞吐量与低延迟的平衡。

　　媒体平台的海量用户需求，决定了实时机器学习要在每秒处理数百万任务量级。以这样的速度进行大规模的信息分发，需要细致到毫秒级的任务执行能力。

2. 动态异构任务模块的高效唤醒。

　　对于Facebook这样体量庞大的平台来说，其服务是由成千上万个不同模块构建而成的，流量调节、图像转码、存储编码等等。在实时任务中，会伴随生成很多不同资源支持的新任务，增加系统的响应和处理难度。

　　如何对这些重要且不一样的特性进行预测，十分具有挑战性。

3. 实时算法与业务场景的融合。

　　实时响应和预测，意味着留给系统的容错空间更小。要保障这一技术在实际应用场景中的稳定性，就要在完成高吞吐量任务的同时，能够快速模拟真实世界的交互，然后精准地判断出，哪些是结果的决定性因素，从而做出正确的响应。

　　举个例子，如果想给用户推荐“哪些朋友赞过此贴”，实时算法会快速判断出“最近一次查看”这一数据集对完成该任务毫无意义，然后快速修改关联并重新学习。这种自适应调整，可以有效防止用户收到的结果中出现明显的错误点。

作者：脑极体