[转]oozie的安装和部署

[转]oozie的安装和部署

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。
Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

a. 工作流定义
b. 当前运行的工作流实例,包括实例的状态和变量

Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML流程定义语言)来描述这个图。

以上只是oozie的一个简单的介绍,具体的可以参看oozie的官方网站。本文将阐述oozie的具体安装过程。PS: 本安装的oozie的版本为cloudera CDH4, hadoop版本也是CDH4

1、下载
wget http://archive.cloudera.com/cdh4/cdh/4/oozie-3.3.2-cdh4.3.0.tar.gz

下载ext-2.2.zip

2、tar zxvf oozie-3.3.2-cdh4.3.0.tar.gz 解压到你的目录下
设置环境变量:vi ~/.bashrc
添加 export OOZIE_HOME=
export PATH= $OOZIE_HOME/bin
export OOZIE_URL=http://IP:11000/oozie
执行source ~/.bashrc

3、进入conf/action-conf,修改hive.xml(如果需要支持hive的话),修改如下:

hadoop.bin.path
hadoop安装目录/bin/hadoop
hadoop.config.dir
hadoop安装目录/etc/hadoop

修改conf/oozie-env.sh,配置你自己的参数值

修改conf/oozie-site.xml
如果使用的是mysql的话,则修改以下配置

oozie.service.JPAService.jdbc.driver
com.mysql.jdbc.Driver

JDBC driver class.
oozie.service.JPAService.jdbc.url
jdbc:mysql://你的IP:3306/${oozie.db.schema.name}? useUnicode=true&characterEncoding=utf8

JDBC URL.
oozie.service.JPAService.jdbc.username
用户

DB user name.
oozie.service.JPAService.jdbc.password
密码

DB user password.

IMPORTANT: if password is emtpy leave a 1 space string, the service trims the value,
if empty Configuration assumes it is NULL.

4、解压oozie-hadooplibs-3.3.2-cdh4.3.0.tar.gz,在oozie的主目录下生成oozie-3.3.2-cdh4.3.0目录,在oozie主目录下创建libext目录,把刚才解压的目录下的文件,我的是oozie/oozie-3.3.2-cdh4.3.0/hadooplibs/hadooplib-2.0.0-cdh4.3.0.oozie-3.3.2-cdh4.3.0下的jar包拷贝到libext目录下;再把ext-2.2.zip和mysql的驱动包拷贝到libext目录下。

5、执行bin/oozie-setup.sh prepare-war -hadoop 2.x hadoop安装目录 -extjs ext-2.2.zip路径 这样在oozie-server/webapps目录下将会生成一个oozie.war文件,刚才的ext-2.2也包含在里面了,用于oozie控制台。

6、解压oozie-sharelib-3.3.2-cdh4.3.0.tar.gz,在oozie主目录下生成share文件夹,拷贝mysql驱动包到该目录下的lib/hive中(hive会用到),然后把lib下的文件拷到到HDFS的目录/user/${user.name}/share/lib下。

7、在mysql上创建oozie库,执行bin/ooziedb.sh create -sqlfile oozie.sql -run DB Connection 这样将会在oozie库中创建oozie运行需要的表。

8、执行bin/oozie-start.sh 启动oozie,web控制台访问地址为http://IP:11000/oozie
通过bin/oozie admin -oozie http://localhost:11000/oozie -status这个命令可以查看oozie的状态

原文地址:http://tangjunliang.iteye.com/blog/1916024