大数据开源列式存储引擎Parquet和ORC_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 4923 | 回复: 5

主题： 大数据开源列式存储引擎Parquet和ORC

jun.zhang

注册用户

等级：上士
经验：278
发帖：76
精华：0
注册：2011-12-27
状态：离线
发送短消息息给jun.zhang

加好友发送短消息息给jun.zhang

发消息

发表于：

2015-12-11 14:45:49 | [全部帖] [楼主帖]

楼主

相比传统的行式存储引擎，列式存储引擎具有更高的压缩比，更少的IO操作而备受青睐（注：列式存储不是万能高效的，很多场景下行式存储仍更加高效），尤

其是在数据列（column）数很多，但每次操作仅针对若干列的情景，列式存储引擎的性价比更高。

在互联网大数据应用场景下，大部分情况下，数据量很大且数据字段数目很多，但每次查询数据只针对其中的少数几行，这时候列式存储是极佳的选择，目前在

开源实现中，最有名的列式存储引擎是Parquet和ORC，在最近一年内，它们都晋升为Apache顶级项目，可见它们的重要性。本文尝试比较这两种存储引擎。

Apache Parquet

源自于google Dremel系统（可下载论文参阅），Parquet相当于Google Dremel中的数据存储引擎，而Apache顶级开源项目Drill正是Dremel的开源实现。

Apache Parquet 最初的设计动机是存储嵌套式数据，比如Protocolbuffer，thrift，json等，将这类数据存储成列式格式，以方便对其高效压缩和编码，且使

用更少的IO操作取出需要的数据，这也是Parquet相比于ORC的优势，它能够透明地将Protobuf和thrift类型的数据进行列式存储，在Protobuf和thrift被广泛使

用的今天，与parquet进行集成，是一件非容易和自然的事情。除了上述优势外，相比于ORC, Parquet没有太多其他可圈可点的地方，比如它不支持update操作

（数据写成后不可修改），不支持ACID等。

Apache ORC

ORC（OptimizedRC File）存储源自于RC（RecordColumnar File）这种存储格式，RC是一种列式存储引擎，对schema演化（修改schema需要重新生成数据）支持

较差，而ORC是对RC改进，但它仍对schema演化支持较差，主要是在压缩编码，查询性能方面做了优化。RC/ORC最初是在Hive中得到使用，最后发展势头不错，

独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持，便是基于ORC实现的（其他存储格式暂不支持）。ORC发展到今天，已经具备一些非常高级的

feature，比如支持update操作，支持ACID，支持struct，array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构，但当层数非常多

时，写起来非常麻烦和复杂，而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。

Parquet与ORC对比

总结

目前在互联网领域，列式存储已经逐步被用于各种产品线中，比如twitter已经将部分数据格式转换为parquet，所占空间和查询时间减少了约1/3。在Twitter，

日志格式使用thrift描述，使用Parquet存储，下图是一个典型的数据格式描述，共有87个字段，7层嵌套关系。

--转自

本版精华
热门帖子

操作引用/回复

步步惊心

注册用户

等级：列兵
经验：115
发帖：0
精华：0
注册：2016-2-17
状态：离线
发送短消息息给步步惊心

加好友发送短消息息给步步惊心

发消息

发表于：

2016-3-18 8:47:00 | [全部帖] [楼主帖]

2 楼

系统问题

操作引用/回复

美炸了的菇凉

注册用户

等级：上士
经验：315
发帖：0
精华：0
注册：2016-2-17
状态：离线
发送短消息息给美炸了的菇凉

加好友发送短消息息给美炸了的菇凉

发消息

发表于：

2016-3-21 19:17:53 | [全部帖] [楼主帖]

3 楼

学到了，谢谢

操作引用/回复

你真的真的很好

注册用户

等级：下士
经验：164
发帖：0
精华：0
注册：2016-2-14
状态：离线
发送短消息息给你真的真的很好

加好友发送短消息息给你真的真的很好

发消息

发表于：

2016-3-22 22:55:24 | [全部帖] [楼主帖]

4 楼

非常感谢

操作引用/回复

wuli涛涛

注册用户

等级：下士
经验：192
发帖：1
精华：0
注册：2016-2-17
状态：离线
发送短消息息给wuli涛涛

加好友发送短消息息给wuli涛涛

发消息

发表于：

2016-3-23 16:55:31 | [全部帖] [楼主帖]

5 楼

学习了，谢谢

操作引用/回复

唾沫星子

注册用户

等级：下士
经验：176
发帖：1
精华：0
注册：2016-1-8
状态：离线
发送短消息息给唾沫星子

加好友发送短消息息给唾沫星子

发消息

发表于：

2016-3-23 17:15:33 | [全部帖] [楼主帖]

6 楼

学习了，谢谢

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Apache Parquet

Apache ORC

Parquet与ORC对比

总结

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图