[分享] centos 安装 hadoop & hive_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 5184 | 回复: 1

主题： [分享] centos 安装 hadoop & hive

fozhyn

注册用户

等级：上士
经验：317
发帖：101
精华：0
注册：2011-10-18
状态：离线
发送短消息息给fozhyn

加好友发送短消息息给fozhyn

发消息

发表于：

2016-4-14 15:14:01 | [全部帖] [楼主帖]

楼主

1，关于hive

Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与 Pig 有相似之处，但它有一些Pig目前还不支持的机制，比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

2，安装

首先要安装hadoop
https://hadoop.apache.org/
直接下载tar.gz解压缩。最新版本2.7.1。

tar -zxvf hadoop-2.7.1.tar.gz
mv hadoop-2.7.1 hadoop

下载地址：
http://hive.apache.org/downloads.html
直接解压缩就可以。最新版本 1.2.1。

tar -zxvf apache-hive-1.2.1-bin.tar.gz 
mv apache-hive-1.2.1 apache-hive

设置环境变量：

export JAVA_HOME=/usr/java/default
export CLASS_PATH=$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=/data/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

export HIVE_HOME=/data/apache-hive
export PATH=$HIVE_HOME/bin:$PATH

3，启动hive，创建表

hive 官网：https://cwiki.apache.org/confluence/display/Hive/Home
配置环境变量就可以启动hive了，这个hive是一个本机环境，只依赖hadoop，只有有hadoop环境变量就行。

创建数据表，和mysql非常类似

# hive
Logging initialized using configuration in jar:file:/data/apache-hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> show databases;
OK
default
Time taken: 1.284 seconds, Fetched: 1 row(s)
hive> use default;
OK
Time taken: 0.064 seconds
hive> show tables;
OK
Time taken: 0.051 seconds
hive> CREATE TABLE user_info(uid INT,name STRING)
    > PARTITIONED BY (create_date STRING)
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
    > STORED AS TEXTFILE;
OK
Time taken: 0.09 seconds

使用apache hive 创建数据库表的时候有可能会遇到问题：

FAILED: ParseException line 5:2 Failed to recognize predicate 'date'. Failed rule: 'identifier' in column specification

说明关键字冲突了。不能使用date，user等关键字。

指定存储格式为 Sequencefile 时，把txt格式的数据导入表中，hive 会报文件格式错

Failed with exception Wrong file format. Please check the file's format.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask

4，导入数据

hive不支持用insert语句一条一条的进行插入操作，也不支持update操作。数据是以load的方式加载到建立好的表中。
数据一旦导入就不可以修改。因为hadoop是这个特性。

创建两个数据文件：

/data/user_info_data1.txt
121,zhangsan1
122,zhangsan2
123,zhangsan3
/data/user_info_data2.txt
124,zhangsan4
125,zhangsan5
126,zhangsan6

数据导入：分别将数据导入到两个分区中。

hive> LOAD DATA LOCAL INPATH '/data/user_info_data1.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150801');
Loading data to table default.user_info partition (create_date=20150801)
Partition default.user_info{create_date=20150801} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0]
OK
Time taken: 0.762 seconds
hive> LOAD DATA LOCAL INPATH '/data/user_info_data2.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150802');
Loading data to table default.user_info partition (create_date=20150802)
Partition default.user_info{create_date=20150802} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0]
OK
Time taken: 0.403 seconds

5，查询

直接查询即可。

hive> select * from user_info where create_date = 20150801;
OK
121     zhangsan1       20150801
122     zhangsan2       20150801
123     zhangsan3       20150801
Time taken: 0.099 seconds, Fetched: 3 row(s)

本版精华
热门帖子

操作引用/回复

Bobo226

注册用户

等级：上尉
经验：548
发帖：0
精华：0
注册：2020-1-7
状态：离线
发送短消息息给Bobo226

加好友发送短消息息给Bobo226

发消息

发表于：

2022-6-17 12:10:19 | [全部帖] [楼主帖]

2 楼

168won预测开奖斯潘塞博士(Lyle M·Spencer，Jr·& Signe M·Spencer)则从特征的角度提出了“素质冰山模型”。素质冰山模型把个体素质形象地描述为漂浮在洋面上的冰山，其中知识和技能是属于裸露在水面上的表层部分

福彩3D稳赚方法稳赚方法这部分是对任职者基础素质的要求，但它不能把表现优异者与表现平平者区别开来，这一部分也称为基准性素质(Threshold Competence)。基准性素质是容易被测量和观察的，因而也是容易被模仿的；换言之

开奖网结果结果知识和技能可以通过针对性的培训习得。内驱力、社会动机、个性品质、自我形象、态度等属于潜藏于水下的深层部分的素质，这部分称为鉴别性素质(Dif-ferentiating Competence)。它是区分绩效优异者与平平者的关键因素

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

1，关于hive

2，安装

3，启动hive，创建表

4，导入数据

5，查询

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图