开源大数据周刊-第104期

资讯

从智能手机到可穿戴设备,从医疗到汽车以及工业制造,边缘计算正在上演一个又一个行业传奇,它的落脚点是要让终端成为更智慧的存在——能够实时处理数据、能够低延时做出反馈——这不就是我们期待中的智能设备吗?

不久前,Facebook 在首届 PyTorch 开发者大会发布了 PyTorch1.0 预览版,标志着这一框架更为稳定可用。从去年年初发布以来,PyTorch 已经成为明星框架,发展速度甚至有力压 TensorFlow 的趋势。据网友统计,在最新的 ICLR 2019 提交论文中,提及 TensorFlow 的论文数量从 228 升到了 266,而提及 PyTorch 的论文数量从 2018 年的 87 激增到了 252,这是否也是 PyTorch 即将赶超 TensorFlow 的又一证明?

我们正在进入数据科学实践的新阶段,即“无代码”时代。 像所有重大的变化一样,这个变化还没有在实践中清晰地体现,但这个变化影响深远,发展趋势非常明显。

技术

Kafka是低开销和易于横向扩展的分布式消息解决方案。本文介绍十个让Kafka服务更加高效简单的运维建议,包括ZooKeeper集群调整,配置调优和安全协议等。

近些年,企业对数据服务实时化服务的需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过 Flink 引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。

Apche Pulsar的特性包括:保证不丢失消息、强顺序性保证、可预测的读写延迟。本文自顶向下讨论各个层次的设计思想,以及Pulsar+BookKeeper(分布式日志存储解决方案)对比Kafka的不同点。

本文首先对 spark streaming 嵌入 kafka 的方式进行归纳总结,之后简单阐述 Spark streaming+kafka 在舆情项目中的应用,最后将自己在 Spark Streaming+kafka 的实际优化中的一些经验进行归纳总结。


版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

猜你喜欢

转载自yq.aliyun.com/articles/658015