Airbnb | 数据基础设施

背景

阅读Data Infrastructure at Airbnb
airbnb是一家主要做租房业务的公司,上面文章是2016年对内部数据基础设施的总结。
airbnb做基础设施的哲学就是以数据为中心,从公司业务角度,核心就是对数据的分析挖掘和管理。

airbnb基础设施有几点哲学

  1. 拥抱开源,组件标准化;尽量不要自己造轮子,借助开源社区已有的方案,快速向前
  2. 考虑系统的可扩展性,以及机器资源的提前考量
  3. 以业务需求为出发点

airbnb数据基础设施

核心设计就是为了提高容灾等级,分离了计算和存储集群,Gold和Silver集群;数据从G到S进行单向拷贝;G集群是S集群数据的真子集。

这里面的技术关键点在于,G集群数据的增加和修改,都需要及时同步给S集群。开源社区并没有副本优化问题(replication optimization problem),airbnb自己实现了一套工具完成这个事情。

最后说了一下针对hadoop集群做的优化;

主要的解决方法就是转向一些标准技术栈来解决的;

有一个问题是EBS远端读写性能差的问题,放弃了HDFS本身的多副本策略,然后通过转向本地存储,只运行一个可用实例来解决的。

这个解决方法,有点像之前工作中遇到的ceph副本造成内网的网络带宽过满的问题。然后我们使用单一副本来解决的。

总结

适合自己业务的才是最好的方案,有时需要懂得取舍。不一定非要用高大上的技术来做基础设施,还是稳定为主。

备注:
Apache Sqoop™ is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.

猜你喜欢

转载自blog.csdn.net/mike_learns_to_rock/article/details/88858375