| 作者:行人
| 编辑:邵佳怡
| 设计:王福政
引言:听到 What'S Next | 科技早知道 播客《S6E06|对话Databricks联合创始人Reynold Xin:380 亿美元估值背后的长期主义》,颇受启发,本文作为一个笔记其中一些内容以及个人的一些思考,对文中内容感兴趣的朋友建议听一下这期节目。
导读:

1、DataBricks早期的3个决定
2、开源软件如何与AWS竞争?
3、数据的未来:湖仓一体
1、DataBricks早期的三个决定
DataBricks是UC Berkeley 人工智能实验室的博士生及教授 于2013年成立的大数据公司,公司雏形诞生于 Apache Spark,通过开源 SaaS 模式服务企业客户,最早提出湖仓一体,并且是唯一提供湖仓一体的云服务公司,提供了一个开放和统一的平台支持大数据和人工智能,同时满足数据仓库和数据湖的应用场景。2021 年 8 月完成 16 亿美元的 H 轮融资,估值 380 亿美元。现在回头看,在公司成立的早期,团队做出的三个决定影响深远。
1# 云服务
团队坚信云计算是未来的方向,其联合创始人Ion Stoica 和 Matei Zaharia 是《A Berkeley View of Cloud Computing》的作者,这篇论文在云计算发展中影响深远,被引用上万次。在公司早期的阶段,不是所有人都深刻理解坚持云服务的理念,每年仍然会被新加入的员工挑战,融资时也会被投资人挑战,同时也不被客户接受。所幸内部坚持云服务,投资人有耐心,客户在2018年后也开始大规模上云。
2# 不做技术支持服务
技术支持服务依赖人员扩张以支持更多客户,不具备大规模扩张的能力,而且利润率也较低,商业模式不如云服务。2015年时,Spark在客户中已经很有名气,很多客户找到团队希望能提供咨询和支持服务,有客户愿意出1000万美元,但会分散团队的注意力,不利于长期发展,我们还是放弃了这块业务;2018年,很多客户已经看到云服务的未来,表示未来会迁移上云,但不确定什么时候会迁移;而到2019年,很多客户已经行动起来,开始迁移上云,云服务已经成为业界的共识。
3# 数据科学(Data Sicence)
参加Netflix的人工智能竞赛时,发现大规模数据集无法在一台服务器上完成模型训练,因此做了Spark项目;公司以Spark为基础,选择数据科学作为业务方向,为数据工程师提供工具,而没有选择竞争更激烈的数据仓库赛道。数据科学作为细分市场是由Facebook、Netflix等公司提出,当时大多数公司还没有相应的职位,没有激烈的竞争,Spark很快被企业接受;而数据仓库则面临老牌的Teradata公司,以及AWS的RedShift的竞争。
虽然DataBricks看好云服务的未来,但也不清楚这个“未来”多久能到来,2年、5年、还是10年,不得不说这个也有运气成分;而另外一家公司成立于2008年的Cloudera就没有那么幸运,从名字就可以看出公司也坚信云服务是未来,但其大多数营收都是来自支持服务,2008-2018长达10年的运营中公司首先要解决活下来的问题,支持服务虽然不能大富大贵,也让公司活到了云服务的黎明,最后被KKR和CD&R 以53亿美元私有化。
2、开源软件如何与AWS竞争?
到2015年Spark在业界就非常有名,很多公司已经在内部落地Spark项目,由于完全基于开源项目运营,公司并没有赚到钱,在DataBricks还在通过开会卖T恤为生时,AWS的EMR大数据平台托管的Spark服务每年应能够获得几个亿美元的营收,开源软件该如何应对AWS的竞争呢?
1# 低成本
客户并不会因为你的原厂服务就选择你,如果服务一样,有什么理由不选择更便宜的AWS服务呢?我们发现多客户在项目开放初期会使用我们的服务,与社区紧密互动获得支持,但当大规模部署时仍然会选择便宜得多的AWS 托管服务。由于AWS很少贡献核心代码,其大多数情况下仅仅是为开源项目提供一个控制台,开发成本很低,因此其服务的价格要便宜得多。
2# 人才密度
由于AWS并不需要对开源项目深入研发,很难招聘到业界最优秀的工程师,可能也不需要非常优秀的工程师,这样导致其在单个项目上人力和资金的投入往往是不如创业公司的。在跟进核心问题改造方面会遇到较大的障碍,这就给商业开源公司提供了打造差异化壁垒的机会。
3# 差异化竞争
我们开始重点考虑商业平台的差异化服务,基于开源的API接口,提供差异化的商业服务,如性能、扩展性、安全等。差异化并不是意味着提供一些非开源功能,必须在用户的核心路径上解决用户的问题,如果差异化的功能不是关键问题,用户可能不需要;如果差异化的功能很简单,AWS很可能会复制;这样都达不到差异化的作用。DataBricks凭借其对Spark及数据科学领域的深刻洞察,为商业化平台提供了强大的差异化能力,这也得益于其早期对开源项目的完全依赖。
4# 销售策略
采取自下而上和自上而下相结合的销售策略。在运营开源项目时,我们没有销售团队,完全通过开发人员社区传播,当我们意识到数据科学家在每个公司都属于少数群体,不可能扩张到很多人时,开始组建销售团队直接与CXO对接,解决其面临的痛点,目前已经相当规模的销售团队专门服务大客户。
5# 多云策略
AWS云服务商只能提供自身云平台的托管服务,而DataBricks则可以同时在多个云服务商中提供服务,目前已经支持主要的三个云服务商AWS、Azure、GCP等;而且与Azure的合作提供Azure DataBricks产品,让Azure云平台从不具备大数据处理能力一跃成为领先的大数据处理平台,对云提供商其他服务的销售也有明显的带动,实现双赢。
DataBricks通打造差异化竞争优势与AWS进行竞争,虽然我们主要产品都是基于开源软件,但我们80%的精力都投入在商业服务上,DataBricks云平台每天运行的虚拟机数量超过1200万台,大规模、可扩展、高可靠的数据平台已经成为我们的竞争壁垒。
此外,MongoDB则选择在2018年修改开源许可证,禁止云服务商托管开源服务,虽然AWS立即启动了DocumentDB以兼容MongoDB,但随着MongoDB的产品持续迭代,已经更新到5.0版本,而DocumentDB则只能停留在兼容的3.6和4.0版本,长期来看客户仍然会站在MongoDB,截止2021年底全球客户数已达33000个。2021年初,Elastic也选择修改开源许可证协议,禁止云服务商托管开源服务,相信经过2-3年的产品迭代及创新,也将达到现在MongoDB现在的阶段。
AWS最大的问题是资源太多,需要关注的产品更多,平均下来每个产品的资源就显得非常有限,但对于大公司下决心要搞好的战略级产品,创业公司要其正面竞争几乎没有机会。
目前,云提供商通过其Marketplace为独立SaaS服务商提供了销售市场,这对双方来说是双赢的结果,2021年Marketplace的市场规模大概40亿美元,Tackle.io预测2025年市场规模将达到500亿美元。
也难怪MongoDB的CEO说,“我们与AWS的关系从没有像现在这么牢固”。
3、数据的未来:湖仓一体
DataBricks从数据处理切入,2018年发现数据处理80%的问题发生在存储领域,而这些是由云厂商提供的,因此他们决定开启Delta Layer项目,为数据湖提供统一的存储层解决方案。
现在常见的数据解决方案是数据湖存储所有数据,再将商业化相关的数据抽取到数据仓库供商业分析师使用,通过权限管理限制不同团队的数据访问权限。
这种多层架构的关键问题是数据的分裂,不同决策人员可能看到不同的数据版本,这种不一致性可能导致得出不同的决策,从而影响到数据的权威性。
早在2019年DataBricks就提出LakeHouse的概念,即湖仓一体,使用统一数据平台解决BI + AI的问题,目前DataBricks 比较擅长AI 并积极补齐BI的短板,而Snowflake 擅长BI 正补齐AI的能力,从这个角度看,未来DataBricks 和 Snowflake 可能是主要竞争对手。
此外,不少数据公司押注SQL,对他们来说“SQL is everything”,而DataBricks认为“SQL is not everything”,虽然SQL受众广泛,几乎没有用户教育成本,但SQL本身不是为技术人员设计的,在解决复杂数据问题时容易遇到瓶颈,Python等高级语言对技术人员更友好。有些团队为开发者提供高级语言,然后底层执行时再翻译成SQL,这种方案遇到问题就很难定位。
本文是商业化系列文章,对相关话题感兴趣的同学可以关注后续更新。
相关阅读 | Related Reading
“源”来是你-Vol.37 | 知名开源企业StreamNative 招募开源社区运营和开源布道师!
Open the World:第七届中国开源年会(COSCon'22)正式启动~

本文分享自微信公众号 - 开源社KAIYUANSHE(kaiyuanshe)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。