从Hadoop1.x集群升级到Hadoop2.x步骤

　　2013年10月15号，Hadoop已经升级到2.2.0稳定版了，同时带来了很多新的特性，本人所在的公司经过一个月时间对Hadoop2.2.0的测试，在确保对业务没有影响的前提下将Hadoop集群顺利的升级到Hadoop2.2.0版本，本文主要介绍如何从Hadoop1.x（本博客用到的是hadoop-0.20.2-cdh3u4）版本的集群顺利地升级到Hadoop2.2.0。友情提示：请在读下文之间认真

w397090770 11年前 (2013-12-02) 12610℃ 2评论8喜欢

Hadoop

精心收集的Hadoop学习资料(持续更新)

本博客分享的其他视频下载地址：《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》　　本博客收集到的Hadoop学习书籍分

w397090770 11年前 (2013-12-02) 88059℃ 59评论297喜欢

Hadoop

Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)

　　由于本文比较长，考虑到篇幅问题，所以将本文拆分为二，请阅读本文之前先阅读本文的第一部分《Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)》。为你带来的不变，敬请谅解。　　与MultipleOutputFormat类不一样的是，MultipleOutputs可以为不同的输出产生不同类型，到这里所说的MultipleOutputs类还是旧版本的功能，后

w397090770 11年前 (2013-11-27) 21570℃ 0评论17喜欢

Hadoop

Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)

　　直到目前，我们看到的所有Mapreduce作业都输出一组文件。但是，在一些场合下，经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便；比如将一个log里面属于不同业务线的日志分开来输出，并交给相关的业务线。　　用过旧API的人应该知道，旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapr

w397090770 11年前 (2013-11-26) 15185℃ 1评论10喜欢

Hadoop

Hadoop1.x程序升级到Hadoop2.x需要的依赖库

　　根据官方文档（Apache Hadoop MapReduce - Migrating from Apache Hadoop 1.x to Apache Hadoop 2.x：http://hadoop.apache.org/docs/r2.2.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduce_Compatibility_Hadoop1_Hadoop2.html）所述，Hadoop2.x是对Hadoop1.x程序兼容的，由于Hadoop2.x对Hadoop1.x做了重大的结构调整，很多程序依赖库被拆分了，所以以前（Hadoop1.x）的依赖库不再可

w397090770 11年前 (2013-11-26) 9613℃ 3评论2喜欢

Hadoop

Hive创建索引

　　索引是标准的数据库技术，hive 0.7版本之后支持索引。Hive提供有限的索引功能，这不像传统的关系型数据库那样有“键(key)”的概念，用户可以在某些列上创建索引来加速某些操作，给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚，提供的选项还较少。但是，索引被设计为可使用内置的可插拔的java

w397090770 11年前 (2013-11-15) 23292℃ 3评论16喜欢

Hadoop

Hadoop2.2.0中HDFS的高可用性实现原理

　　在Hadoop2.0.0之前，NameNode(NN)在HDFS集群中存在单点故障（single point of failure），每一个集群中存在一个NameNode，如果NN所在的机器出现了故障，那么将导致整个集群无法利用，直到NN重启或者在另一台主机上启动NN守护线程。　　主要在两方面影响了HDFS的可用性：　　（1）、在不可预测的情况下，如果NN所在的机器崩溃了，整个

w397090770 11年前 (2013-11-14) 10675℃ 3评论22喜欢

Hadoop

Hive：简单查询不启用Mapreduce job而启用Fetch task

写在前面的话，学Hive这么久了，发现目前国内还没有一本完整的介绍Hive的书籍，而且互联网上面的资料很乱，于是我决定写一些关于《Hive的那些事》序列文章，分享给大家。我会在接下来的时间整理有关Hive的资料，如果对Hive的东西感兴趣，请关注本博客。https://www.iteblog.com/archives/tag/hive-technology/　　如果你想查询某个表的某

w397090770 11年前 (2013-11-13) 18050℃ 4评论17喜欢

Hadoop

Hadoop2.2.0完全分布式集群平台安装与设置

　　如果你想搭建伪分布式Hadoop平台，请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》　　经过好多天的各种折腾，终于在几台电脑里面配置好了Hadoop2.2.0分布式系统，现在总结一下如何配置。　　前提条件：　　（1）、首先在每台Linux电脑上面安装好JDK6或其以上版本，并设置好JAVA_HOME等，测试一下java、javac、jps等命令

w397090770 11年前 (2013-11-06) 21314℃ 6评论27喜欢