Hadoop2.0 添加Snappy压缩方式

Hadoop2.0 添加Snappy压缩方式

在hadoop中主要提供了三种压缩方式Gzip、LZO、Snappy三种数据压缩,其中Snappy为Google提出的一种压缩算法,本篇主要也是讲解Hadoo2.0 上安装和配置。

在安装之前必须确定已经安装完毕一下东东:
gcc c++, autoconf, automake, libtool, Java 6, JAVA_HOME set, Maven 3

如果没有请相应挨个安装。

1:下载并安装snappy,在上述的snappy介绍地址中就有下载链接。下载并解压。

安装

$tarzxvf snappy-1.1.1.tar.gz
$cd snappy-1.1.1
$ ./configure
$make
$sudo make install

2:注意这时仅是安装了snappy,但是还没有使snappy和hadoop连接起来。下面就是通过mvn,创建hadoop-snappy的jar包。首先需要下载hadoop-snappy,解压、进入该目录。
执行

$ mvn package -Dsnappy.prefix=/usr/local

3:安装完成之后就可以发现当期目录下的taget文件夹中存在打成的tar包 和jar包。然后把相应的包拷贝到
hadoop的lib文件夹下,通过scp命令分发到集群的其他节点上。

4. 修改core-site.xml 添加


 io.compression.codecs
 org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec

重启hadoop集群
搞定。