Hadoop在网站备份中的应用 _Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
2
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2897 | 回复: 1   主题: Hadoop在网站备份中的应用         上一篇   下一篇 
tuhao
注册用户
等级:少尉
经验:339
发帖:2
精华:0
注册:2015-5-6
状态:离线
发送短消息息给tuhao 加好友    发送短消息息给tuhao 发消息
发表于: IP:您无权察看 2015-12-16 14:50:52 | [全部帖] [楼主帖] 楼主

【背景】
    目前社区网站规模越来越大,一般采用分布式数据库存储即时信息,但是对于安全的备份,数据库中的数据备份最好是能转移到一个安全可靠的平台,而非将备份数据保留与本地。


【hadoop平台的利用
    在每个数据库备份完成后,将其复制到稳定的Hadoop集群中。集群对备份的数据有固定的保留时间,已确保集群被大量过时的备份吞噬。同时集群可以适当的扩展,以满足备份的需求。Hadoop的分布式特性让在数据库进行数据恢复的时候有足够的带宽。
    同时非实时数据可以再Hadoop平台中得到更好的分析和挖掘,提高数据库站点的前台响应时间

【Hadoop对文档去重
      1.对旧文档进行MD5处理,对行文档通过mapreduce进行合并到旧文档
      2.计算文档的hash值,在Hbase总设置去重表,来表示文档的重复性,重文档不予存入Hbase
      3.数据指纹(文档指纹)+mapreduce去重




赞(0)    操作        顶端 
夜华君93
注册用户
等级:下士
经验:190
发帖:0
精华:0
注册:2015-12-8
状态:离线
发送短消息息给夜华君93 加好友    发送短消息息给夜华君93 发消息
发表于: IP:您无权察看 2015-12-21 21:54:57 | [全部帖] [楼主帖] 2  楼



赞(0)    操作        顶端 
总帖数
2
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论