[下载]【PDF】Spark环境下基于多维布隆过滤器的星型连接算法_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 4264 | 回复: 0

主题： [下载]【PDF】Spark环境下基于多维布隆过滤器的星型连接算法

逝水流

注册用户

等级：上等兵
经验：124
发帖：6
精华：0
注册：2012-4-26
状态：离线
发送短消息息给逝水流

加好友发送短消息息给逝水流

发消息

发表于：

2016-4-12 9:26:35 | [全部帖] [楼主帖]

楼主

Spark环境下基于多维布隆过滤器的星型连接算法

周国亮萨初日拉朱永利

为了适应联机分析处理(OLAP)系统中实时数据高性能分析需求不断提高的需求,提出一种能够适合Spark环境并结合多维Bloom Filter(MDBF)的星型连接算法SMDBFSJ。首先,根据多个维表构建MDBF,利用其占用空间小的特点,广播到所有节点;然后,在本地节点完成事实表过滤操作,事实表不需要在节点间移动数据;最后,过滤后的事实表与维表采用重划分方式进行连接,进而得到最终结果。SMDBFSJ算法避免了事实表数据移动,通过MDBF减小了需要广播的数据量,充分结合了广播连接和重划分连接的优势。实验结果表明了该算法的有效性,在单机和集群环境下,该算法相比重划分连接均获得了3倍左右的性能提升。

Spark环境下基于多维布隆过滤器的星型连接算法

--转自