精通HADOOP（六） - 初识Hadoop - 解决问题/总结

1.1 解决问题

如果你在执行本书的样例程序过程中遇到问题，最有可能的就是因为执行环境的不同引起的，也可能由于你的计算机的存储空间不足导致问题。

然后，下面的环境变量的设置是重要的：

JAVA_HOME：这是JDK的安装根路径。所有的样例程序假设JAVA_HOME环境变量指向JDK 1.6_07的安装根路径。这里假设JDK安装在/usr/java/jdk1.6.0_07。所以，我们应该设置JAVA_HOME如下：export JAVA_HOME=/usr/java/jdk1.6.0_07。

DADOOP_HOME：这是Hadoop安装根目录。你应该把hadoop-0.19.0.tar.gz下载文件解压到~/src目录下，这样，hadoop程序就会位于~/src/hadoop-0.19.0/binhadoop。HADOOP_HOME环境变量应该指向Hadoop安装的根目录，也就是~/src/haoop-0.19.0。所以，我们应该设置HADOOP_HOME如下：HADOOP_HOME=~/src/hadoop-0.19.0。

PATH：用户路径应该包含${JAVA_HOME}/bin和${HADOOP_HOME}/bin，最好是让他们位于PATH的前两个元素。因此，我们应该设置PATH如下：export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${PATH}.

对于Windows用户，你必须添加C:/cygwin/bin;C:/cygwin/usr/bin到系统路径环境变量中，否则Hadoop核心服务器不会正常工作。你可以通过系统控制面板设置环境变量。在系统属性对话框，点击高级工作薄，然后点击环境变量按钮。在环境变量对话框的系统变量部分，选择Path，点击编辑按钮，添加下面的字符串：

C:/cygwin/bin;C:/cygwin/usr/bin

分号“；”是元素分隔符。

除此之外，我们通常假设用于执行Hadoop样例程序的Shell会话的工作目录是${HADOOP}。

如果你在输出中看见类似于java.long.OutOfMemoryError:Java Heap Space的错误，那么你的计算机可能没有足够的RAM内存或者分配给Java堆的内存不足。具有2个Map作业和100个抽样的PiEstimator程序应该运行在提供最多128MB(-Xmx128M)的堆存储空间的JVM上.你可以使用下列的命令达到这样的目的：

HADOOP_OPTS="-Xmx128m" hadoop jar hadoop-0.19.0-examples.jar pi 2 100

1.2 总结

Hadoop核心提供了一个在大量的通用目的的计算机上执行分布式计算任务的健壮的框架。应用程序开发人员需要为它们的数据处理开发Map和Reduce作业代码，并且使用已有的输入和输出格式中的一个。框架提供了丰富的输入和输出处理器。如果需要，你能够创建客户化的输入输出处理器。

你需要花费一定的努力才能克服安装过程中遇到的困难，但是，越来越多的开发人员和组织遇到这样的问题并且不断的改善安装过程，这使安装变得越来越简单。Cloudera（http://www.cloudera.com）提供了一个RPM包可以自动安装Hadoop。

许多特征和功能还在实验性阶段。参考http://hadoop.apache.org/core网址上的信息，现在就开始加入开发邮件列表（如果你想要加入核心邮件列表，发送邮件到[email protected]）和开发你的应用程序是个不错的注意，但愿Hadoop给你带来快乐。

当你开始开发自己的Hadoop应用程序的时候，后面章节一定可以帮助你解决一些遇到的问题。