[hive] collect_set用法  _Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3156 | 回复: 0   主题: [hive] collect_set用法          上一篇   下一篇 
huan.liu
注册用户
等级:新兵
经验:72
发帖:58
精华:0
注册:2011-11-23
状态:离线
发送短消息息给huan.liu 加好友    发送短消息息给huan.liu 发消息
发表于: IP:您无权察看 2015-12-4 16:41:46 | [全部帖] [楼主帖] 楼主

COLLECT_SET,对于多列的group by操作时,

如果你想得到这样的结果:


appid       app_name           app_url

1                  应用汇             www.test1.com

1                  阿拉工具          www.test2.com

2                  小星星             www.test3.com

3                   小生                www.test4.com

3                  小明                  www.test5.com



希望得到这样的结果:

appid         app_name               app_url

1                 应用汇                     www.test1.com

2                 小星星                     www.test3.com

3                  小生                        www.test4.com


由于不能使用 multi-distinct, 故可以使用如下方式得到:

hive>
select appid,          
       collect_set(app_name)[0],          
       collect_set(app_url)[0]
from            
       your_table
group by            
       appid;

另一种做法:可以考虑使用min, max
select appid,  
       max(app_name),      
       max(app_url)
from     
       your_table
group by         
       appid;


详解:

arraycollect_set(col)Returns a set of objects with duplicate elements eliminated

collect_set: 返回去重的元素数组。





--转自



赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论