我们都知道Hadoop是一个开源的平台,目前使用最广的是互联网公司,在采访中Todd Papaioannou告诉IT168记者,目前Yahoo在Hadoop上的贡献占了70%,而且Yahoo贡献给Hadoop社区的是Yahoo全部的研究成果。Todd Papaioannou说Hadoop也是Yahoo云计算平台最核心的部分,所以Yahoo投入了大量的人力和物力到Hadoop的研究中。目前Yahoo在中国也建立一个大型的研究基地,该基地大约有一半以上的人员每天都在接触使用Hadoop。Yahoo希望借助自己以及其他企业和开发人员的共同努力,让Hadoop在性能和安全性上更加完善,并向那些不太熟悉Hadoop又想使用Hadoop的小型企业提供资讯、技术上的帮助。Yahoo技术专家也表示,今后会继续完善Hadoop,特别是在安全性方面,今后Yahoo比较关注的问题包括小文件的处理和整体性能的优化,以及名字服务器的可扩展性等。
也许有很多用户还不清楚Hadoop跟传统的计算模式有什么区别,这点在采访中Todd Papaioannou也提到,他认为传统的工具,比如说像SQL等这样的数据库查询语言相比,Hadoop更关注的是处理那种非结构化的数据,而传统的主要是使用关系型数据。传统处理的数据关系比较规范化,而对于那些非关系型数据Hadoop则能够提供更大的灵活性。Hadoop是MapReduce的最佳实现。
据Yahoo专家介绍,Yahoo内部使用的Hadoop中,目前最大的Hadoop集群有四千台机器,Yahoop内部有很多个集群,目前至少有十六七个集群。而这些集群大小各异,小的只有几台机器,最大的有四千台机器,总机器数大概在四万台左右。Todd Papaioannou介绍说,Yahoo内部不同的机器有不同的用处,有的是做实验用,有的是在生产上使用,取决于任务的性质。接下来,Yahoo一方面会在系统的可扩展性上继续投入,使其规模可以超过四千台机器,以建立更大的集群。另一面会关注于可管理性,提高Hadoop的可管理和运营方面。最后Yahoo会努力提高系统的利用率,优化系统可用性。
Hadoop似乎是一个让人望而止步的应用,很多小企业会疑惑自己是不是具备了使用Hadoop的条件,针对这一个大众疑惑,IT168记者也向Todd Papaioannou讨教了一番。Todd Papaioannou认为只要有数据处理需求的企业都可以用Hadoop,现在除了互联网行业外,也有很多企业在用Hadoop,比如说银行、制药企业、以及一些机械制造企业都开始使用Hadoop。
那么企业到底需要多少的资金、人力资源的投入才能使用Hadoop呢?Todd Papaioannou认为企业可以从分享开始,也就是你投入多少就能有多少分享产出。小企业完全可以从几台机器开始投资,而具体投资多少往往取决于企业数据的大小,随着数据的增长,企业可以适时的增加投资力度,这样企业也会得到越来越多的处理能力。Todd Papaioannou强调Hadoop是一个相当有弹性和扩展性的平台,它既可以在成千上万的机器上跑,也可以在很小规模上运行,比如可以在一台笔记本上跑Hadoop。
Todd Papaioannou认为对于开源软件来说其实是更容易实现的,因为它是开放的。Yahoo所关注的贡献并不仅仅是Hadoop运营方面,而是在一个数据中心的范畴上。整个数据中心不仅仅有Hadoop,还有其他的工作,包括数据库、以及前端服务。Yahoo把这一系列看做Hadoop的一个整体,希望在这个整体上提供完整的服务。在未来Yahoo也希望有更多的人参与到Hadoop的建设中,让Hadoop开发社区更加强大,也更具有影响力。