hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4

第一次搞hadoop，折腾我2天，功夫不负有心人，终于搞好了，现在来分享下，

我的环境

操作系统：wmv虚拟机中的ubuntu12.04

hadoop版本：hadoop-1.0.4(听说是稳定版就下了)

eclipse版本：eclipse-jee-indigo-SR2-win32

1.先安装好jdk，然后配置好jdk的环境变量，在这里我就不累赘了！网上多的是

2.安装ssh这个也不用说了

2.把hadoop-1.0.4.tar.gz拖到虚拟机中，解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的)

3.修改hadoop-1.0.4/conf 下面的core-site.xml文件，如下：

https://www.360docs.net/doc/5818055769.html,

hdfs://192.168.116.128:9000

hadoop.tmp.dir

/home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost，127.0.0.1都不行，我没试过，直接写上ip地址了

tmp是预先创建的一个目录

4.修改hadoop-env.sh

把export JAVA_HOME=xxxxxx 这行的#号去掉，写上jdk的目录路径

5.修改hdfs-site.xml如下：

dfs.replication

dfs.permissions

false

说明：为了以后用eclipse开发出现各种问题，就把权限关了！

6.修改mapred-site.xml

mapred.job.tracker

192.168.116.128:9001

这里我也用了本机ip

7.启动hadoop

为了方便启动，我就把hadoop配置到了环境变量(配置完记得重启)：

export HADOOP_HOME=/home/wys/Documents/hadoop-1.0.4

export JAVA_HOME=/home/wys/Documents/jdk1.6.0_24

export JRE_HOME=$JAVA_HOME/jre

export PATH=$PATH:$HADOOP_HOME/bin

把这个复制到/etc/profile 文件中HADOOP_HOME JAVA_HOME根据实际情况而定！

重启之后格式化分布式文件系统：

hadoopnamenode -format

接着启动hadoop：

start-all.sh

成功后会看到一下信息：

startingnamenode, logging to /home/wys/Documents/hadoop-1.0.4/libexec/../logs/h

adoop-root-namenode-ubuntu.out

localhost: starting datanode, logging to /home/wys/Documents/hadoop-1.0.4/libexec/../logs/hadoop-root-datanode-ubu ntu.out

localhost: starting secondarynamenode, logging to /home/wys/Documents/hadoop-1.0.4/libexec/../logs/hadoop-root-secondarynam enode-ubuntu.out

startingjobtracker, logging to /home/wys/Documents/hadoop-1.0.4/libexec/../logs/hadoop-root-jobtracker-ubu ntu.out

localhost: starting tasktracker, logging to /home/wys/Documents/hadoop-1.0.4/libexec/../logs/hadoop-root-tasktracker-ub untu.out

现在就可以在浏览器中输入地址：

http://192.168.116.128:50030

http://192.168.116.128:50070

均可以查看到一些信息

假如这个http://192.168.116.128:50070地址无法访问是因为hadoop.tmp.dir 这个没指定文件夹

至此hadoop已安装配置完成！

Eclipse 连接hadoop开发程序入门

前面一遍博文介绍了如何安装配置hadoop

地址：https://www.360docs.net/doc/5818055769.html,/wqs1010/article/details/8486040

这里就来介绍一下用eclipse如何连接hadoop开发

由于我用的是虚拟机中的系统来做测试，多少有点不正确，还请谅解！

1.首先要下载eclipse hadoop插件我用的是hadoop 1.0.4的版本,这里有个已经做好了的版本

下载地址：hadoop-eclipse-plugin-1.0.4.jar

下载下来直接把jar文件放到eclipse/plugins/文件夹中,然后重启eclipse

2.之后会到看到如下图：然后设置下右边的hadoop根目录

没有的话说明插件没安装成功！

3.切换到Map/Reduce视图：

下面有个黄色的大象：

4.右击新建一个hadoop地址

把红框的都填下：

Location name : 这个随便写个

Map/Reduce host port: 这2个是要根据conf/mapred-site.xml这个来定的

DFS Master port：这个是对应你conf/core-site.xml这个文件中https://www.360docs.net/doc/5818055769.html,这个属性的值

右边的Advanced parameters就不用改了！

完成后再看工程视图：

一步一步展开DFS Locations

当出现ConnectException异常时，只要检查下你写的地址跟端口是否跟hadoop配置文件中一样即可！

5.连接成功之后类似这个样子：

6.新建一个MapReduce Project

把\hadoop-1.0.4\src\examples\org\apache\hadoop\examples\WordCount.java复制到你的工程

7.在eclipse里，创建远程目录命名为wordCount，建完之后刷新就可以看到了

8.然后从本地上传一个word.txt文件

word.txt内容：

javac++ python c

java c++javascript

helloworldhadoop

mapreduce java hadoophbase

当出现https://www.360docs.net/doc/5818055769.html,node.SafeModeException: 异常，这时就要把hadoop安全模式关闭, 命令：hadoopdfsadmin –safemode leave

9.上传之后run as WordCount.java 记得带上参数,用空格隔开

这个时候会出现Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-wys\mapred\staging\wys1479426331\.staging

to 0700 异常，是因为没有权限，网上说替换hadoop-core-xx.jar包中的org.apache.hadoop.fs.FileUtil.class文件，除此之外我还没找到其他的方法了！文件地址：FileUtil

10.替换之后刷新工程，再次执行WordCount.java文件

当控制台打印下面这些说明已经执行成功！

再看DFS Locations

下面会多出来一个文件夹和2个文件，

打开part-r-00000文件这个就是你想要的：

恭喜你，此时大功告成！

Hadoop、hive环境搭建详解

一、
Hadoop 环境搭建首先在 Apache 官网下载 hadoop 的包 hadoop-0.20.2.tar.gz。解压 hadoop-0.20.2.tar.gz 包，具体命令如下： tar zxvf hadoop-0.20.2.tar.gz 其中要注意的是，tar 包用 xvf ，gz 包用 zxvf。
在安装中，如果遇到识别问题，或者无法解压，很有可能是权限问题，解决方案是修改此文件的使用权限，命令如下： chmod 777 hadoop-0.20.2.tar.gz 其中，777 为所有权限。如果依然报错，如：Archive contains obsolescent base-64 headers;Error exit delayed from previous errors。这种情况，一般是压缩包损坏的问题。因为大多数人会将包下载到 windows 环境，再通过 ftp 等方法上传到 Linux 环境。容易产生包损坏。建议大家直接下载到 Linux 即可。具体命令如下： wget https://www.360docs.net/doc/5818055769.html,/apache-mirror/hadoop/core/hadoop-0.20.2/ hadoop-0.20.2.tar.gz 直接下载到当前目录。当文件准备好之后，我们要修改配置，将 Hadoop 简单 run 起来。首先，我们进入 hadoop-0.20.2/conf 目录当中，其中会存在如下配置文件：首先修改 masters 和 slaves，这个是指定我们的 m 和 s 的 ip 地址，这里我们就以单台机器为例子，在文件中直接输入当前机器的 IP。之后我们修改 mapred-site.xml 文件，具体配置如下 Xml 代码 1. 2. 3.

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

Hadoop环境的搭建与管理 (1)

Hadoop环境的搭建与管理 1、Hadoop的安装与配置 HDFS在Master节点启动dfs和yarn服务时，需要自动启动Slave节点服务，HDFS需要通过ssh访问Slave节点机。HDFS需要搭建多台服务器组成分布式系统，节点机间需要无密码访问。本节任务是进行ssh的设置、用户的创建、hadoop参数的设置,完成HDFS分布式环境的搭建。任务实施：本节任务需要四台节点机组成集群，每个节点机上安装CentOS-6.5-x86_64系统。四台节点机使用的IP地址分别为：192.168.23.111、192.168.23.112、192.168.23.113、192.168.23.114，对应节点主机名为：node1、node2、node3、node4。节点机node1作为NameNode，其他作为DataNode。创建hadoop用户，分别在四台节点机上创建用户hadoop，uid=660，密码分别为h1111, h2222, h3333, h4444。登录node1节点机，创建hadoop用户和设置密码。操作命令如下。 [root@node1 ~]# useradd -u 660 hadoop [root@node1 ~]# passwd hadoop 其他节点机的操作相同。步骤2 设置master节点机ssh无密码登录slave节点机。（1）在node1节点机上，以用户hadoop用户登录或者使用su – hadoop切换到hadoop 用户。操作命令如下。 [root@node1 ~]# su - hadoop （2）使用ssh-keygen生成证书密钥，操作命令如下。 [hadoop@node1 ~]$ssh-keygen -t dsa （3）使用ssh-copy-id分别拷贝证书公钥到node1，node2，node3，node4节点机上，操作命令如下。 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node1 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node2 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node3 [hadoop@node1 ~]$ ssh-copy-id -i .ssh/id_dsa.pub node4 （4）在node1节点机上使用ssh测试无密码登录node1节点机，操作命令如下。 [hadoop@node1 ~]$ ssh node1 Last Login: Mon Dec 22 08:42:38 2014 from node1 [hadoop@node1 ~]$ exit Logout Connection to node1 closed.

win7+eclipse+hadoop开发环境搭建

Win7+eclipse+Ubuntu14虚拟机环境下搭建hadoop1.2.1单机模式的开发环境 1.虚拟机下安装ubuntu14操作系统。 **注:（我安装ubuntu的时候的用户名是zjp一下涉及到的所有的zjp都需要换成自己的用名） 2.Ctrl+Alt+t 快捷键可以打开终端。 3.激活root用户sudo passwd root 4.联网的情况下，可以用apt-get install samba命令下载以及安装samba服务器。这个主要是为了window向ubuntu中上传jdk以及hadoop的安装文件。(如果apt-get命令无法使用，先用apt-get update安装这个命令。如果主机联网了，但是ubuntn没有连上网，那么将虚拟机的网络适配器改为NA T模式，并且启动任务管理器。打开服务，查看VMware NAT service 和WMware DPCH service是否启动，如果没有启动那么就启动这两个服务。如果还不能联网那就在虚拟机的菜单栏中选择编辑->虚拟网络编辑器，恢复默认设置。重启一下电脑，如果还是不行，那就没办法了，自求多福！) 5.联网的情况下安装ssh协议apt-get install ssh 6.在/home/zjp 目录下创建两个文件夹1.share用于存放共享文件 2.mysoftware用于存放需要安装的软件 7.配置samba共享su root 切换至root用户gedit /etc/samba/smb.conf 编辑samba 的配置文件在文件的最后添加 [share] comment=sharedir path=/home/zjp/share read only=no browseable=yes guest ok=no 7.关闭防火墙ufw disable 8重启samba服务器service samba restart 9创建samba用户smbpasswd -a samba用户名eg:smbpasswd -a zkpk 10ifconfig查看ubuntu的ip地址。例如ip是192.168.30.128 11打开我的电脑，在地址栏中输入\\192.168.30.128不出意外的话会让你登录，就用创建的samba登录就可以了。然后把下载好的linux版本的jdk和hadoop的安装文件拷贝进去。12.再把传到share目录下面的两个文件拷贝到mysoftware中去。这些准备工作都做好了，就可以安装jdk以及hadoop了一．先安装jdk 1.在mysoftware目录下用tar -zxvf jdk-7u55-linux-x64.gz命令解压以及安装jdk。 2.配置环境变量 gedit /etc/profile 然后在文件的最末尾添加如下内容: JA V A_HOME=/home/xkl/mysof/jdk1.7.0_60 export PA TH=$PATH:$JA V A_HOME/bin OK注销一下Ubuntu然后在终端中输入java -version如果可以看见jdk的版本，说明jdk 安装成功。二.安装hadoop

Hadoop-0.20.2详细安装及疑难问题

安装 2011年4月4日 10:13 Hadoop-0.20.2安装使用 1、Cygwin 安装 ssh 2、按照以下的文档配置ssh 在Windows上安装Ha doop教程.pdf 3、几个配置文件的配置 3.1、conf/core-site.xml https://www.360docs.net/doc/5818055769.html, hdfs://localhost:9000 true hadoop.tmp.dir /workspace/temp/hadoop/tmp/hadoop- ${https://www.360docs.net/doc/5818055769.html,} true 3.2、conf/hdfs-site.xml dfs.replication 1 true https://www.360docs.net/doc/5818055769.html,.dir /workspace/temp/hadoop/data/hadoop/name true

dfs.data.dir /workspace/temp/hadoop/data/hadoop/data true 3.3、conf/mapred-site.xml mapred.job.tracker localhost:9001 true 3.4、conf/hadoop-env.sh export JAVA_HOME=D:/workspace/tools/jdk1.6 4、解决启动的时候 ClassNotFound： org.apache.hadoop.util.PlatformName 将 %hadoop_home%\bin\hadoop-config.sh中的第190行修改为如下： JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m -classpath ${HADOOP_COMMON_HOME}/hadoop-common-0.21.0.jar org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"` 5、命令

Hadoop全分布式安装配置

Hadoop全分布式安装配置一实验目的： 1、了解Hadoop的体系结构、组成； 2、熟练掌握Hadoop的配置、安装方法； 3、通过安装Hadoop了解Hadoop的原理；二实验内容：集群包含三个安装了Linux操作系统的节点。将其中的一个节点作为NameNode，另外两个节点作为DataNode，安装之前先利用ping命令，确认三个节点之间的网络互通，即可以互相ping通。假设三个节点IP地址如下，实际的集群节点IP地址可以不同。 NameNode：192.168.198.2 主机名：master DataNode1：192.168.198.3 主机名：slaver1 DataNode2：192.168.198.4 主机名：slaver2 三实验环境：在申请的虚拟服务器上安装了VMWare Workstation虚拟3个Ubuntu14.04系统。四安装配置过程： 1、安装Vmware WorkStation软件下载安装Vmware WorkStation12.0软件。 2、在虚拟机上安装linux操作系统在Vmware WorkStation12.0中创建一个Ubuntu14.04系统。拷贝镜像文件复制出三个系统。分别为master、slaver1、slaver2。 3、配置hosts、hostname文件

在三台机器上配置相同的hosts文件（1）修改hosts sudo gedit /etc/hosts 192.168.198.200 master 192.168.198.199 slave1 192.168.198.198 slave2 （2）修改hostname sudo gedit /etc/hostname 4、配置ip地址配置ip：sudo gedit /etc/network/interfaces slave2 auto eth0 iface eth0 inet static address 192.168.198.198 gateway 192.168.198.107 netmask 255.255.255.0 slave1 auto eth0 iface eth0 inet static address 192.168.198.199 gateway 192.168.198.107 netmask 255.255.255.0 master auto eth0 iface eth0 inet static address 192.168.198.200 gateway 192.168.198.107 netmask 255.255.255.0

centos下hadoop2.6.0配置

Hadoop-2.6.0配置前面的部分跟配置Hadoop-1.2.1的一样就可以，什么都不用变，完全参考文档1即可。下面的部分就按照下面的做就可以了。 hadoop-2.6.0的版本用张老师的。下面的配置Hadoop hadoop-2.6.0的部分 1.修改hadoop- 2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持： export JAVA_HOME=/usr/java/jdk1.6.0_45 如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。 2.修改hadoop-2.6.0/etc/hadoop/core-site.xml 注意：必须加在节点内 hadoop.tmp.dir /home/hadoop/hadoop-2.6.0/tmp Abase for other temporary directories. https://www.360docs.net/doc/5818055769.html, hdfs://master:9000 3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml https://www.360docs.net/doc/5818055769.html,.dir /home/hadoop/hadoop-2.6.0/dfs/name Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. dfs.data.dir /home/hadoop/hadoop-2.6.0/dfs/data Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks. dfs.replication 1 4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

hadoop集群完整配置过程详细笔记

本文为笔者安装配置过程中详细记录的笔记 1．下载hadoop hadoop-2.7.1.tar.gz hadoop-2.7.1-src.tar.gz 64位linux需要重新编译本地库 2．准备环境 Centos6.4 64位，3台 hadoop0 192.168.1.151namenode hadoop1 192.168.1.152 datanode1 Hadoop2 192.168.1.153 datanode2 1）安装虚拟机： vmware WorkStation 10，创建三台虚拟机，创建时，直接建立用户ha,密码111111.同时为root密码。网卡使用桥接方式。安装盘、 2). 配置IP.创建完成后，设置IP,可以直接进入桌面，在如下菜单下配置IP,配置好后，PING 确认好用。 3)更改三台机器主机名切换到root用户，更改主机名。 [ha@hadoop0 ~]$ su - root Password: [root@hadoop0 ~]# hostname hadoop0 [root@hadoop0 ~]# vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop0 以上两步后重启服务器。三台机器都需要修改。 4）创建hadoop用户由于在创建虚拟机时，已自动创建，可以省略。否则用命令创建。

5）修改hosts文件 [root@hadoop0 ~]# vi /etc/hosts 127.0.0.1 localhostlocalhost.localdomain localhost4 localhost4.localdomain4 ::1localhostlocalhost.localdomain localhost6 localhost6.localdomain6 192.168.1.151 hadoop0 192.168.1.152 hadoop1 192.168.1.153 hadoop2 此步骤需要三台机器都修改。 3．建立三台机器间，无密码SSH登录。 1）三台机器生成密钥，使用hadoop用户操作 [root@hadoop0 ~]# su– ha [ha@hadoop0 ~]$ ssh -keygen -t rsa 所有选项直接回车，完成。以上步骤三台机器上都做。 2）在namenode机器上，导入公钥到本机认证文件 [ha@hadoop0 ~]$ cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys 3）将hadoop1和hadoop2打开/home/ha/.ssh/ id_rsa.pub文件中的内容都拷贝到hadoop0的/home/ha /.ssh/authorized_keys文件中。如下： 4）将namenode上的/home/ha /.ssh/authorized_keys文件拷贝到hadoop1和hadoop2的/home/ha/.ssh文件夹下。同时在三台机器上将authorized_keys授予600权限。 [ha@hadoop1 .ssh]$ chmod 600 authorized_keys 5）验证任意两台机器是否可以无密码登录，如下状态说明成功，第一次访问时需要输入密码。此后即不再需要。 [ha@hadoop0 ~]$ ssh hadoop1 Last login: Tue Aug 11 00:58:10 2015 from hadoop2 4．安装JDK1.7 1）下载JDK（32或64位），解压 [ha@hadoop0 tools]$ tar -zxvf jdk-7u67-linux-x64.tar.gz 2）设置环境变量（修改/etx/profile文件）， export JAVA_HOME=/usr/jdk1.7.0_67 export CLASSPATH=:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin 3）使环境变量生效，然后验证JDK是否安装成功。

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。这里我使用QJM完成。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode 1安装前准备 1.1示例机器 192.168.0.10 hadoop1 192.168.0.20 hadoop2 192.168.0.30 hadoop3 192.168.0.40 hadoop4 每台机器都有一个hadoop用户，密码是hadoop 所有机器上安装jdk1.7。在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。 1.2配置ip与hostname 用root用户修改每台机器的hosts

hadoop3安装和配置

hadoop3.0.0安装和配置1.安装环境硬件：虚拟机操作系统：Centos 7 64位 IP：192.168.0.101 主机名：dbp JDK：jdk-8u144-linux-x64.tar.gz Hadoop：hadoop-3.0.0-beta1.tar.gz 2.关闭防火墙并配置主机名 [root@dbp]#systemctl stop firewalld #临时关闭防火墙 [root@dbp]#systemctl disable firewalld #关闭防火墙开机自启动 [root@dbp]#hostnamectl set-hostname dbp 同时修改/etc/hosts和/etc/sysconfig/network配置信息 3.配置SSH无密码登陆 [root@dbp]# ssh-keygen -t rsa #直接回车 [root@dbp]# ll ~/.ssh [root@dbp .ssh]# cp id_rsa.pub authorized_keys [root@dbp .ssh]# ssh localhost #验证不需要输入密码即可登录

4.安装JDK 1、准备jdk到指定目录 2、解压 [root@dbp software]# tar–xzvf jdk-8u144-linux-x64.tar.gz [root@dbp software]# mv jdk1.8.0_144/usr/local/jdk #重命名4、设置环境变量 [root@dbp software]# vim ~/.bash_profile 5、使环境变量生效并验证 5.安装Hadoop3.0.0 1、准备hadoop到指定目录 2、解压

hadoop安装简要过程和相关配置文件

Hadoop安装简要过程及配置文件 1、机器准备 ①、Linux版操作系统centos 6.x ②、修改主机名，方便配置过程中记忆。修改文件为： /etc/sysconfig/network 修改其中的HOSTNAME即可 ③、配置局域网内，主机名与对应ip，并且其中集群中所有的机器的文件相同，修改文件为 /etc/hosts 格式为： 10.1.20.241 namenode 10.1.20.242 datanode1 10.1.20.243 datanode2 2、环境准备 ①、配置ssh免密码登陆，将集群中master节点生成ssh密码文件。具体方法： 1）、ssh-keygen -t rsa 一直回车即可,将会生成一份 ~/.ssh/ 文件夹，其中id_rsa为私钥文件 id_rsa.pub公钥文件。 2）、将公钥文件追加到authorized_keys中然后再上传到其他slave节点上追加文件： cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 上传文件： scp ~/.ssh/authorized_keys root@dananode:~/.ssh/ 3）、测试是否可以免密码登陆：ssh 主机名或局域网ip ②、配置JDK ③、创建hadoop用户 groupadd hadoop useradd hadoop -g hadoop 4)、同步时间 ntpdate https://www.360docs.net/doc/5818055769.html, 5）、关闭防火墙 service iptables stop 3、安装cdh5 进入目录/data/tools/ (个人习惯的软件存储目录，你可以自己随便选择)； wget "https://www.360docs.net/doc/5818055769.html,/cdh5/one-click-install/redhat/ 6/x86_64/cloudera-cdh-5-0.x86_64.rpm" yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm 添加cloudera仓库验证： rpm --importhttps://www.360docs.net/doc/5818055769.html,/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

Hadoop详细安装配置过程

1.下载并安装安装ssh sudo apt-get install openssh-server openssh-client 3.搭建vsftpd #sudo apt-get update #sudo apt-get install vsftpd 配置参考的开始、关闭和重启 $sudo /etc/vsftpd start #开始 $sudo /etc/vsftpd stop #关闭 $sudo /etc/vsftpd restart #重启 4.安装 sudo chown -R hadoop:hadoop /opt cp /soft/ /opt sudo vi /etc/profile alias untar='tar -zxvf' sudo source /etc/profile source /etc/profile untar jdk* 环境变量配置 # vi /etc/profile ●在profile文件最后加上 # set java environment export JAVA_HOME=/opt/ export CLASSPATH=.:$JAVA_HOME/lib/:$JAVA_HOME/lib/ export PATH=$JAVA_HOME/bin:$PATH 配置完成后，保存退出。 ●不重启，更新命令 #source /etc/profile ●测试是否安装成功 # Java –version 其他问题：出现unable to resolve host 解决方法参考开机时停在Starting sendmail 不动了的解决方案参考安装软件时出现E: Unable to locate package vsftpd 参考vi/vim 使用方法讲解参考分类: Hadoop

Hadoop的安装与配置及示例wordcount的运行

Hadoop的安装与配置及示例程序 wordcount的运行目录前言 (1) 1 机器配置说明 (2) 2 查看机器间是否能相互通信（使用ping命令） (2) 3 ssh设置及关闭防火墙 (2) 1）fedora装好后默认启动sshd服务，如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status (3) 2）关闭防火墙（NameNode和DataNode都必须关闭） (3) 4 安装jdk1.6(集群中机子都一样) (3) 5 安装hadoop(集群中机子都一样) (4) 6 配置hadoop (4) 1）配置JA V A环境 (4) 2）配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件 (5) 3）将NameNode上完整的hadoop拷贝到DataNode上，可先将其进行压缩后直接scp 过去或是用盘拷贝过去 (7) 4）配置NameNode上的conf/masters和conf/slaves (7) 7 运行hadoop (7) 1）格式化文件系统 (7) 2）启动hadoop (7) 3）用jps命令查看进程，NameNode上的结果如下： (8) 4）查看集群状态 (8) 8 运行Wordcount.java程序 (8) 1）先在本地磁盘上建立两个文件f1和f2 (8) 2）在hdfs上建立一个input目录 (9) 3）将f1和f2拷贝到hdfs的input目录下 (9) 4）查看hdfs上有没有f1,f2 (9) 5)执行wordcount（确保hdfs上没有output目录） (9) 6）运行完成，查看结果 (9) 前言最近在学习Hadoop，文章只是记录我的学习过程，难免有不足甚至是错误之处，请大家谅解并指正！Hadoop版本是最新发布的Hadoop-0.21.0版本，其中一些Hadoop命令已发生变化，为方便以后学习，这里均采用最新命令。具体安装及配置过程如下：

(完整word版)hadoop安装教程

1、VMware安装我们使用Vmware 14的版本，傻瓜式安装即可。（只要）双击如过 2.安装xshell 双击 3.安装镜像：解压centos6.5-empty解压双击打开CentOS6.5.vmx 如果打不开，在cmd窗口中输入：netsh winsock reset 然后重启电脑。进入登录界面，点击other 用户名：root 密码：root 然后右键open in terminal 输入ifconfig 回车查看ip地址

打开xshell

点击链接如果有提示，则接受输入用户名：root 输入密码：root 4.xshell连接虚拟机打开虚拟机，通过ifconfig查看ip

5.安装jkd 1.解压Linux版本的JDK压缩包 mkdir：创建目录的命令 rm -rf 目录/文件删除目录命令 cd 目录进入指定目录 rz 可以上传本地文件到当前的linux目录中（也可以直接将安装包拖到xshell窗口） ls 可以查看当前目录中的所有文件 tar 解压压缩包（Tab键可以自动补齐文件名）

pwd 可以查看当前路径文档编辑命令: vim 文件编辑命令 i:进入编辑状态 Esc（左上角）：退出编辑状态 :wq 保存并退出 :q! 不保存退出 mkdir /home/software #按习惯用户自己安装的软件存放到/home/software目录下 cd /home/software #进入刚刚创建的目录 rz 上传jdk tar包 #利用xshell的rz命令上传文件(如果rz命令不能用，先执行yum install lrzsz -y ，需要联网) tar -xvf jdk-7u51-linux-x64.tar.gz #解压压缩包 2.配置环境变量 1）vim /etc/profile 2）在尾行添加 #set java environment JAVA_HOME=/home/software/jdk1.8.0_65 JAVA_BIN=/home/software/jdk1.8.0_65/bin PATH=$JAVA_HOME/bin:$PATH CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH Esc 退出编辑状态 :wq #保存退出注意JAVA_HOME要和自己系统中的jdk目录保持一致，如果是使用的rpm包安

hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4 第一次搞hadoop，折腾我2天，功夫不负有心人，终于搞好了，现在来分享下，我的环境操作系统：wmv虚拟机中的ubuntu12.04 hadoop版本：hadoop-1.0.4(听说是稳定版就下了) eclipse版本：eclipse-jee-indigo-SR2-win32 1.先安装好jdk，然后配置好jdk的环境变量，在这里我就不累赘了！网上多的是 2.安装ssh这个也不用说了 2.把hadoop-1.0.4.tar.gz拖到虚拟机中，解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的) 3.修改hadoop-1.0.4/conf 下面的core-site.xml文件，如下： https://www.360docs.net/doc/5818055769.html, hdfs://192.168.116.128:9000 hadoop.tmp.dir /home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost，127.0.0.1都不行，我没试过，直接写上ip地址了 tmp是预先创建的一个目录 4.修改hadoop-env.sh 把export JAVA_HOME=xxxxxx 这行的#号去掉，写上jdk的目录路径 5.修改hdfs-site.xml如下： dfs.replication 1 dfs.permissions false 说明：为了以后用eclipse开发出现各种问题，就把权限关了！

Hadoop安装配置超详细步骤

Hadoop的安装 1、实现linux的ssh无密码验证配置. 2、修改linux的机器名，并配置/etc/hosts 3、在linux下安装jdk，并配好环境变量 4、在windows下载hadoop 1.0.1，并修改hadoop-env.sh，core-site.xml， hdfs-site.xml， mapred-site.xml，masters，slaves文件的配置 5、创建一个给hadoop备份的文件。 6、把hadoop的bin加入到环境变量 7、修改部分运行文件的权限 8、格式化hadoop，启动hadoop 注意：这个顺序并不是一个写死的顺序，就得按照这个来。如果你知道原理，可以打乱顺序来操作，比如1、2、3，先哪个后哪个，都没问题，但是有些步骤还是得依靠一些操作完成了才能进行，新手建议按照顺序来。

一、实现linux的ssh无密码验证配置（1）配置理由和原理 Hadoop需要使用SSH协议，namenode将使用SSH协议启动namenode和datanode进程，(datanode向namenode传递心跳信息可能也是使用SSH协议，这是我认为的，还没有做深入了解)。大概意思是，namenode 和datanode之间发命令是靠ssh来发的，发命令肯定是在运行的时候发，发的时候肯定不希望发一次就弹出个框说：有一台机器连接我，让他连吗。所以就要求后台namenode和datanode 无障碍的进行通信。以namenode到datanode为例子：namenode作为客户端，要实现无密码公钥认证，连接到服务端datanode上时，需要在namenode上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到datanode上。当namenode通过ssh连接datanode时，datanode就会生成一个随机数并用namenode的公钥对随机数进行加密，并发送给namenode。namenode收到加密数之后再用私钥进行解密，并将解密数回传给datanode，datanode确认解密数无误之后就允许namenode 进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上。

Hadoop安装手册_Hadoop2.0-v1.6

Hadoop2.0安装手册目录第1章安装VMWare Workstation 10 (4) 第2章VMware 10安装CentOS 6 (10) 2.1 CentOS系统安装 (10) 2.2 安装中的关键问题 (13) 2.3 克隆HadoopSlave (17) 2.4 windows中安装SSH Secure Shell Client传输软件 (19) 第3章CentOS 6安装Hadoop (23) 3.1 启动两台虚拟客户机 (23) 3.2 Linux系统配置 (24) 3.2.1软件包和数据包说明 (25) 3.2.2配置时钟同步 (25) 3.2.3配置主机名 (26) 3.2.5使用setup 命令配置网络环境 (27) 3.2.6关闭防火墙 (29) 3.2.7配置hosts列表 (30) 3.2.8安装JDK (31) 3.2.9免密钥登录配置 (32) 3.3 Hadoop配置部署 (34) 3.3.1 Hadoop安装包解压 (34) 3.3.2配置环境变量hadoop-env.sh (34) 3.3.3配置环境变量yarn-env.sh (35) 3.3.4配置核心组件core-site.xml (35) 3.3.5配置文件系统hdfs-site.xml (35) 3.3.6配置文件系统yarn-site.xml (36) 3.3.7配置计算框架mapred-site.xml (37) 3.3.8 在master节点配置slaves文件 (37) 3.3.9 复制到从节点 (37) 3.4 启动Hadoop集群 (37) 3.4.1 配置Hadoop启动的系统环境变量 (38) 3.4.2 创建数据目录 (38) 3.4.3启动Hadoop集群 (38) 第4章安装部署Hive (44) 4.1 解压并安装Hive (44) 4.2 安装配置MySQL (45) 4.3 配置Hive (45) 4.4 启动并验证Hive安装 (46) 第5章安装部署HBase (49) 5.1 解压并安装HBase (49) 5.2 配置HBase (50) 5.2.1 修改环境变量hbase-env.sh (50) 5.2.2 修改配置文件hbase-site.xml (50) 5.2.3 设置regionservers (51)