EMC在大数据分析上下了大笔投注,并整合Hadoop文件系统到其Isilon向外扩展的文件管理器,提供并允许他们的Greenplum分析产品使用Hadoop数据。
Hadoop是一种对象式的分布式和可扩展的开源文件系统(HDFS),跨datanodes(数据节点)和一个单一的NameNode(命名节点)的集群实现,在一个更大的集群中,带有第二个NameNode来快照主节点的数据结构,并在主节点失败时用作重建资源。NameNode包含关于在datanodes上文件存储的元数据,在需要时为它们服务。
HDFS今天流行在大学,特别是在生命科学领域,以及一些Web 2.0应用。 EMC强调的一部分是NameNode是一个单点故障,实际上没有针对它的高可用性,他们声称,排除了其用于企业级数据中心的可能性。该公司估计,有一个巨大的机会去提供Hadoop系统,在企业数据中心里用于大数据分析,如果HDFS能够可用达到企业级强健度,并由普通存储管理员管理的话。这就为什么要提供一个针对Greenplum HD分析前端的Isilon-HDFS整合存储后端。
EMC的Isilon OneFS v6.5版本,提供了一个一站式的Apache Hadoop商店,它被看作Hadoop世界缺少的设施,即:
• 一个共享的,而不是一个专用的存储基础设施;
• 高可用性的NameNode;
• 通过快照(SnapshotIQ),复制(SyncIQ)和备份(NDMP备份)的保护;
• 提高存储效率超过3倍,从基本HDFS的数据镜像到80%的水平;
• 单独扩展计算和容量的能力;
• 自动化数据导入/导出通过NDS,CIFS,FTP,和HTTP
Isilon的产品管理总监Nick Kirsch,谈到NameNode的实施:“这是唯一的。NameNode现在是我们的分布式元数据的一部分,每个节点都是一个NameNode。”
下一代Greenplum已经被Apache Hadoop认证,提供平台管理和控制,以及与Greenplum数据库的并行分析访问。EMC公司还提供设计和培训服务,世界各地的24x7支持和发展路线图。
EMC对比了他们与甲骨文和NetApp的方法,与任何一个都不同,EMC声称可以在他们的存储阵列上提供Hadoop的原生整合;针对NameNode的完整HA;相同级别的存储效率;多协议访问和企业级保护功能。
普渡大学曾在其统计部门试用Isilon/Hadoop的组合并获得认可,他们说:“现在没有一个单独的Hadoop数据竖井的需求,它们的用户现在有了“一个单一的共享存储资源,针对数据计算和分析。”他的统计人员做出更多的统计信息并付出更少的Hadoop基础设施管理。
EMC公司声称这些新增的功能,将会使Hadoop更多的用于企业,并且企业Hadoop的用户将越来越多地看到数据科学家(见Wikibon的描述)来统计分析他们有意义的大数据集——信息。毕竟,决策数据的能力是大数据的获利。
在Isilon上的EMC Greenplum HD可立即通过EMC及其渠道合作伙伴销售。