[转帖]大数据架构有哪些？应该如何理解？_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 4473 | 回复: 0

主题： [转帖]大数据架构有哪些？应该如何理解？

liuliying930406

注册用户

等级：中校
经验：2027
发帖：210
精华：0
注册：2018-10-9
状态：离线
发送短消息息给liuliying930406

加好友发送短消息息给liuliying930406

发消息

发表于：

2018-10-22 15:58:49 | [全部帖] [楼主帖]

楼主

转自公众号头条问答

核心的模块是Cube，Cube是一个更高层的业务模型抽象，在Cube之上可以进行多种操作。大部分BI系统都基于关系型数据库，关系型数据库使用SQL语句进行操作，但是SQL在多维操作和分析的表示能力上相对较弱，所以Cube有自己独有的查询语言MDX，MDX表达式具有更强的多维表现能力，所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山，大多数的数据库服务厂商直接提供了BI套装软件服务，轻易便可搭建出一套Olap分析系统。

以Hadoop体系为首的大数据分析平台：

Hadoop体系的生态圈也不断的变大，目前围绕Hadoop体系的大数据架构大概有以下几种：

传统大数据架构

其定位是为了解决传统BI的问题，简单说，数据分析的业务没有发生任何变化，依然保留了ETL的动作，将数据经过ETL动作进入数据存储。

适用场景：

数据分析需求依旧以BI场景为主，但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上，流式架构非常激进，直接拔掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了ETL，转而替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。虽然有一个存储部分，但是该存储更多的以窗口的形式进行存储，所以该存储并非发生在数据湖，而是在外围系统。

适用场景：

预警，监控，对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构，大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性，而离线则以批处理方式为主，保障了最终一致性。流式通道处理为保障实效性更多的以增量计算为主辅助参考，而批处理层则对数据进行全量运算，保障其最终的一致性，因此Lambda最外层有一个实时层和离线层合并的动作，此动作是Lambda里非常重要的一个动作，大概的合并思路如下：