本文转自AI前线公众号
10 月3 日,Hortonworks 宣布将与其主要竞争对手Cloudera 合作创建一家年收入约为7.3 亿美元、拥有2,500 名客户、市场估值达52 亿美元的公司,这令很多人感到意外。
Splice Machine 首席执行官Monte Zweben 表示:“我认为对于我们来说,这是个好消息。我们已经看到了运营由这两家公司和其他公司部署的所有数据湖的巨大机会,而这样的机会在两年前可能连想都不敢想”。
Confluent 的首席执行官兼Apache Kafka 联合创始人Jay Kreps 告诉ZDNet:“这是一个聪明的举动。过去,这两家公司在同一产品上展开竞争,但具有讽刺意味的是,这却让竞争变得更加激烈”。
Unravel Data 首席执行官Kunal Agarwal 说:“我认为这是件好事。我认为这两家公司在将他们的技术整合在一起,而不是试图相互攻击。他们现在可以专注于提供合适的机器学习工具、物联网平台和AI 工具”。
但并非所有的反应都是积极正向的。自由科技记者Virginia Backaitis 在他的一片文章中写道:“我比较担心新的Cloudera(或者可能是单独的Cloudera 和Hortonworks)是否会像管理团队和投资人所期望的那样快速增长”。
Bloomberg Opinion 专栏作家Shira Ovide 同样不看好,他将这两家公司的合并说成是“两家水下公司的航海联盟”。
Teradata 首席运营官Oliver Ratzesberger 告诉Datanami:“这是一种Sears-K-Mart 式的合并,这是他们唯一能够生存下来的方式。Hadoop 本身就变得无关紧要了”。
Anaconda 产品和营销高级副总裁Mathew Lodge 在VentureBeat 上发布的一篇文章中指出,大数据的中心已经从Hadoop 转移到了云端,在对象存储系统(如亚马逊S3、微软Azure Blob Storage 和Google Cloud Storage)中存储数据比在HDFS 中便宜了五倍。
“领先的云计算公司并没有在Cloudera 和Hortonworks 上运行大型的Hadoop/Spark 集群,相反,他们在容器基础设施上运行分布式云规模数据库和应用程序。现在是时候让Hadoop 和Spark 与时俱进了”。
让Hadoop 更像云
事实上,Apache Hadoop 社区一直都在积极应对来自公有云供应商的威胁,包括像Databricks 和Snowflake 这样的初创公司。它们通过采用对象存储和容器技术让云端的大数据分析变得更便宜和更容易,并在上周获得了来自风险资本的4.5 亿投资,
在今年早些时候发布的Hadoop 3 中,用户可以选择使用擦除编码(erasure coding),这是S3 等对象存储系统使用的数据保护技术,可将存储效率提高50%。Hadoop 3.1 将为YARN 中的Docker 带来更强劲的支持。在宣布合并之前,Cloudera 和Hortonworks 都在努力让他们的Hadoop 发行版支持Kubernetes。
但是,对于Hadoop 社区来说,他们还有很多工作要做。上个月,Cloudera 首席战略官Mike Olson 告诉Datanami,社区还需要12 到24 个月才能在开源的Apache Hadoop 项目中提供Kubernetes 支持。
Olson 说:“YARN 擅长长期运行的批次作业调度,但要作为通用的集群资源管理框架,它还需要精心的设计和改进。未来Kubernetes 将会入驻,并接管其中的一大部分内容”。
于是问题来了:当YARN 被Kubernetes 取代,并且HDFS 被替换为任何兼容S3 的对象存储系统时,Hadoop 还会是原来的Hadoop 吗?如果你认为Hadoop 只是40 个开源项目的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu,等等——那么也许这个问题就问得没有什么实际意义……
从实际角度来看,客户不可能因为两个最大的Hadoop 发行商的整合而突然关闭多年来部署的数百万个Hadoop 节点。对于已经建立了Hadoop 数据湖的数千家公司而言,它们的重点将保持不变:从数据中获取价值。
尽管Hadoop 可能已经变成了一项传统技术,但社区仍然有动力去调整它,以便支持新兴的需求,就像IBM 对其大型机平台所做的那样。问题是它是否能够以足够快的速度让已部署的基础设施不断增长。
简化Hadoop
自从十多年前第一个MapReduce 程序上线以来,开发人员一直对Hadoop 的复杂性颇有微词。即使像Facebook 这样大的公司在使用Hadoop 时也感到不便,特别是当他们需要通过底层的Java 编程技能从Hadoop 中及时获取信息时。
从那时起的一个发展趋势,就是消除这种复杂性,但Hadoop 社区没能及时取得进展,因此未能阻止云供应商通过推出更简单的产品抢走市场份额。
Splice Machine 的Zweben 表示:“我认为这是Hadoop 的一次转型。软件供应商会使用越来越多的引擎,但从长远来看,不会有普通的企业会用它们……对于全球2000 大企业来说,在背负Hadoop 的重压之下很难做到这点”。
Unravel Data 公司的Agarawal 表示,现在Cloudera 和Hortonworks 的工程师将齐心协力,以更好地应对构建系统方面的挑战,这些系统可以以本地、云端和混合的方式运行。“这是一个巨大的项目,仍然需要大量的工程师投入时间,把它打造成Kubernetes 之上的一个成功的平台。他们还有很多开发工作要做”。
如果说在隧道尽头有一盏灯,那它就是:如果新Cloudera 可以将Hadoop 重新打造成一个混合的容器化平台,位于Kubernetes 之上,并且可以将数据存储在任何与S3 兼容的对象存储中,那么它就有可能实现部分目标,并占领一部分市场。IDC 认为这是一个价值650 亿美元的机会。
Agarwal 说:“我认为Cloudera 手里握有一张云供应商所没有的王牌,那就是他们的混合策略。根据我们与这些财富1000 强公司合作的经验来看,他们不会直接进入云端。他们想要的是这种混合策略。因此,我认为这将成为为这些客户创造价值的一条可行之路”。
从幻灭到生产力
从一开始,Hadoop 基本上就是大数据的代名词。如果你遇到需要用大数据来解决的问题,那么答案肯定就是Hadoop。
这当然是不对的,很多人都这么说——但这却是Hadoop 多年来的一个营销口号。
Teradata 首席技术官史Steven Brobst 说,为解决复杂问题而寻找银弹是人类的天性。“人们倾向于相信新技术将解决他们所有的问题,它会为你做所有的事情,甚至包括在早上给你端来一杯咖啡”。
Hadoop 曾经是被过度热炒的一项技术,而到了今天,这个头衔被AI 拿走了。Brobst 说:“当你的期望过度膨胀时,最终结果只会是失败。当技术被设置了不恰当的预期,就会跌落到幻灭的低谷”。
Brobst 继续说道:“我们现在所看到的Hadoop 就正在经历这样的一个过程。Hadoop 正处于幻灭的低谷。‘放弃它吧,它已经不管用了!’其实它之所以不管用,是因为我们期望它能够完成所有的事情。对于这样不切实际的期望,除了失望之外,没有其他可能性”。
Brobst 说,虽然人们一直在Hadoop 上挣扎,但这并不意味着Hadoop 没有价值。相反,它意味着组织和用户应该要重新设置他们的期望,并问问自己它应该用在什么地方会更好。
他说:“Hadoop 和大数据终将走出Gartner 炒作周期的幻灭低谷,然后进入生产力高原。这不是一个大数据战略,而是一个数据战略……它将成为生态系统的一部分,但不会解决所有问题”。