Hadoop、Hive、Zookeeper和Hbase安装配置

Contents

1 Hadoop (2)

1.1 准备工作 (2)

1.1.1 机器 (2)

1.1.2 为什么三个节点 (2)

1.2 配置hosts文件 (3)

1.3 建立hadoop运行帐号 (3)

1.4 配置ssh免密码连入 (4)

1.4.1 追加authorized_keys (4)

1.4.2 ssh-copy-id (4)

1.5 下载并解压hadoop安装包 (4)

1.6 配置环境变量 (4)

1.6.1 安装JA V A (4)

1.6.2 配置环境变量 (4)

1.6.3 环境变量生效和验证 (5)

1.7 修改配置文件 (5)

1.8 向各节点复制hadoop (9)

1.9 格式化namenode (9)

1.10 启动hadoop (10)

1.11 用jps检验各后台进程是否成功启动 (10)

1.12 通过网站查看集群情况 (11)

2 HDFS的使用 (12)

2.1 帮助 (12)

2.2 文件的上传、下载和查看 (13)

3 Hive (14)

3.1 Mysql (15)

3.1.1 安装 (15)

3.1.2 启动 (15)

3.1.3 Mysql connector (15)

3.2 安装包和环境变量 (15)

3.2.1 解压 (15)

3.2.2 配置环境变量并生效 (15)

3.3 修改Hive的配置文件 (15)

3.4 Hive的启动和测试 (17)

4 Zookeeper (18)

4.1 实验环境 (18)

4.2 配置Zookeeper (18)

4.3 运行Zookeeper (19)

5 HBASE (22)

5.1 写在前面 (22)

5.2 安装 (22)

5.3 修改配置文件 (22)

5.3.1 配置hbase-env.sh (22)

5.3.2 配置hbase-site.xml (22)

5.3.3 配置regionservers (23)

5.4 拷贝到其它节点 (23)

5.5 启动 (23)

5.6 关闭 (24)

5.7 基本使用 (24)

5.7.1 启动Hbase shell (24)

Hadoop、Hive、Zookeeper和Hbase

安装配置

该文档中Ubuntu系统的截图来自网络，当然，除了图片，有好多内容也是从网上别人的博客上扒下来的，仅供大家参考。1Hadoop

1.1准备工作

1.1.1机器

我这边有3台虚拟机

你先装一下开源的hadoop吧

之后我再找几台虚拟机在装一下曙光的大数据产品

192.168.30.1 node1 10.0.50.116 外网访问ip

192.168.30.3 node3

192.168.30.4 node4

安装包考在了node1 /root/cdh/下了

用户名root 密码111111

1.1.2为什么三个节点

这三个结点有什么用，原理很简单，按照hadoop集群的基本要求，其中一个是master 结点，主要是用于运行hadoop程序中的namenode、secondorynamenode和jobtracker任务。用外两个结点均为slave结点，其中一个是用于冗余目的，如果没有冗余，就不能称之为hadoop了，所以模拟hadoop集群至少要有3个结点，如果电脑配置非常高，可以考虑增加一些其它的结点。slave结点主要将运行hadoop程序中的datanode和tasktracker任务。

所以，在准备好这3个结点之后，需要分别将linux系统的主机名重命名，重命名主机名的方法：

Vim /etc/hostname

通过修改hostname文件即可，这三个点结均要修改，以示区分。

以下是我对三个结点的ubuntu系统主机分别命名为：node1, node3, node4示区分。

以下是我对三个结点的ubuntu系统主机分别命名为：node1, node3, node4

这里的node1是master节点，另外的两个node3和node4是slave节点。

1.2配置hosts文件

先简单说明下配置hosts文件的作用，它主要用于确定每个结点的IP地址，方便后续master结点能快速查到并访问各个结点。在上述3个虚机结点上均需要配置此文件。由于需要确定每个结点的IP地址，所以在配置hosts文件之前需要先查看当前虚机结点的IP地址是多少，可以通过ifconfig命令进行查看，如本实验中，master结点的IP地址为：

如果IP地址不对，可以通过ifconfig命令更改结点的物理IP地址，示例如下：

通过上面命令可以将IP改为192.168.1.100。将每个结点的IP地址设置完成后，就可以配置hosts文件了，hosts文件路径为;/etc/hosts，我的hosts文件配置如下，大家可以参考自己的IP地址以及相应的主机名完成配置

实际上，这里的物理机器的ip地址已经配置好了，所以host文件中的内容如下：

1.3建立hadoop运行帐号

即为hadoop集群专门设置一个用户组及用户，这部分比较简单，参考示例如下：

sudo groupadd hadoop //设置hadoop用户组

sudo useradd –s /bin/bash –d /home/lfqy –m lfqy –g hadoop//添加一个lfqy用户，此用户属于hadoop用户组。

sudo passwd lfqy //设置用户lfqy登录密码

su lfqy//切换到lfqy用户中

上述3个虚机结点均需要进行以上步骤来完成hadoop运行帐号的建立。

1.4配置ssh免密码连入

要实现master节点能够免认证连到各个slave节点，而且各个master和slave节点能够免认证连接到自己。具体的实现方法有好多，这里以要实现机器A上得用户a到机器B上得用户b的免认证登陆为例简单介绍几种。实际上，后面几种方法都是第一种的简单封装。

1.4.1追加authorized_keys

以用户b的身份登录机器B，然后，用ssh-keygen命令生成一对密钥。将其中的依.pub 结尾的文件传到机器B的用户b的home目录下。然后，用命令cat idsa.pub >> ~/.ssh/ authorized_keys将b的公钥追加到授权列表中。

1.4.2ssh-copy-id

以用户a的身份登陆机器A，ssh-copy-id b@hostB。当然，如果还没有密钥，请使用ssh-keygen命令生成。

1.5下载并解压hadoop安装包

关于安装包的下载就不多说了，不过可以提一下目前我使用的版本为hadoop-2.3.0，

这个版本不是最新的。

解压后hadoop软件目录放在node1节点的/home/lfqy/hadoop目录下。

1.6配置环境变量

环境变量配置这一步，在每个节点都要做。

1.6.1安装JAVA

因为在下的jdk是gz格式，所以首先需要解压。解压后移动到合适的目录，注意不要用当前用户的工作目录，这是为了简化后续工作。

解压：SHELL$ sudo tar -zxvf jdk-7u51-linux-i586.gz

移动：SHELL$ sudo mv jdk1.7.0_51 /home

这里解压到的目录就是JA V A环境变量的目录。

1.6.2配置环境变量

环境变量的配置主要有两个方面，一个是java的环境变量，另一个是Hadoop的环境变量。

具体地，就是在/etc/profile文件中添加相应的行，下面是我配置的例子。在/etc/profile 文件中添加了如下行：

麻烦，在PATH环境变量中，要将我们的设置放在路径的最前面，而将$PATH原来的设置放到最后面，就像上面的红色部分设置的那样。

1.6.3环境变量生效和验证

环境变量生效可以用source命令：source /etc/profile。

验证可以采用echo $JA V A_HOME等方式逐个验证，也可以用下面的hadoop version命令查看是否能够打印出hadoop的版本信息，下面是我运行的就结果。

当然，除了node1节点（master节点）之外，其他节点上现在还没有hadoop安装包，这里也就不用测试其他节点了，因为，一个正确，其它的都是拷过去的应该问题不大。1.7修改配置文件

需要修改的配置文件主要有下面几个：

./core-site.xml

./hdfs-site.xml

./mapred-site.xml（开始的安装包中是没有这个文件的，需要将文

件./mapred-site.xml.template复制并且重名为mapred-site.xml）。

./yarn-site.xml

./yarn-env.sh

./hadoop-env.sh

./slave

这里我的hadoop安装包，放在master节点（hostname是node1）的/home/lfqy/hadoop 下。上面新建的专门用来运行hadoop的用户就是lfqy。

Hadoop的2.3.0版本中，上面的配置文件可在目录/home/lfqy/hadoop/etc/hadoop中找到。

下面的文件内容是我修改之后的文件内容。

./core-site.xml：

https://www.360docs.net/doc/267330622.html,/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License. See accompanying LICENSE file.

-->

fs.defaultFS

hdfs://node1:9000

hadoop.tmp.dir

/home/lfqy/hadoop/tmp

A base for other tempory directories.

./hdfs-site.xml：

https://www.360docs.net/doc/267330622.html,/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License. See accompanying LICENSE file.

-->

https://www.360docs.net/doc/267330622.html,node.secondary.http-address

node1:9001

https://www.360docs.net/doc/267330622.html,.dir

file:/home/lfqy/hadoop/dfs-name

dfs.datanoade.data.dir

file:/home/lfqy/hadoop/dfs-data

dfs.replication

dfs.webhdfs.enabled

true

./mapred-site.xml

https://www.360docs.net/doc/267330622.html,

yarn

./yarn-site.xml

Yarn.nodemanager.aux-services

./hadoop-env.sh

./yarn-env.sh

这个文件里存放的是各个slave 节点的hostname

1.8 向各节点复制hadoop

用scp 命令将配置好的hadoop 安装包，拷贝到各个其它节点。注意，scp 拷贝目录的时

候要用-r

参数。

比如，在node3节点的/home/lfqy 目录下，将node1节点的主目录下的hadoop 目录拷贝

到当前目录就是用下面的命令：

scp -r lfqy@node1:~/hadoop .。

1.9 格式化namenode

这一步在主结点master 上进行操作：

注意：上面只要出现“successfully formatted ”就表示成功了。

1.10启动hadoop

这一步也在主结点master上进行操作：

1.11用jps检验各后台进程是否成功启动

在主结点master上查看namenode,jobtracker,secondarynamenode进程是否启动。

如果出现以上进程则表示正确。

在node1和node2结点了查看tasktracker和datanode进程是否启动。

先来node1的情况:

下面是node2的情况：

进程都启动成功了。恭喜~~~

1.12通过网站查看集群情况

Hadoop安装完成之后，会有两个web管理界面，可以分别通过下面的url查看。

在浏览器中输入http://10.0.50.116:8088/，网址为master的ip：

在浏览器中输入：http://10.0.50.116:50070/，网址为master结点所对应的IP：

2HDFS的使用

2.1帮助

如果配置好了环境变量，直接运行hdfs命令，不加任何参数就能得到hdfs的帮助。也可以用hdfs –help得到HDFS的帮助。

$ hdfs -help

Usage: hdfs [--config confdir] COMMAND

where COMMAND is one of:

dfs run a filesystem command on the file systems supported in Hadoop.

namenode -format format the DFS filesystem

secondarynamenode run the DFS secondary namenode

namenode run the DFS namenode

journalnode run the DFS journalnode

zkfc run the ZK Failover Controller daemon

datanode run a DFS datanode

dfsadmin run a DFS admin client

haadmin run a DFS HA admin client

fsck run a DFS filesystem checking utility

balancer run a cluster balancing utility

jmxget get JMX exported values from NameNode or DataNode.

oiv apply the offline fsimage viewer to an fsimage

oev apply the offline edits viewer to an edits file

fetchdt fetch a delegation token from the NameNode

getconf get config values from configuration

groups get the groups which users belong to

snapshotDiff diff two snapshots of a directory or diff the

current directory contents with a snapshot

lsSnapshottableDir list all snapshottable dirs owned by the current user

Use -help to see options

portmap run a portmap service

nfs3 run an NFS version 3 gateway

cacheadmin configure the HDFS cache

Most commands print help when invoked w/o parameters.

从上面可以看到，dfs命令是执行一个HDFS文件系统支持的命令。可以进一步查看dfs 的帮助。下面列出的是hdfs的dfs命令支持的一些文件系统操作，实际上，具体的各个操作的格式可以也从下面看到具体的说明。

[-checksum ...]

[-chgrp [-R] GROUP PATH...]

[-chmod [-R] PATH...]

[-chown [-R] [OWNER][:[GROUP]] PATH...]

[-copyFromLocal [-f] [-p] ... ]

[-copyToLocal [-p] [-ignoreCrc] [-crc] ... ]

[-count [-q] ...]

[-cp [-f] [-p] ... ]

[-createSnapshot []]

[-deleteSnapshot ]

[-df [-h] [ ...]]

[-du [-s] [-h] ...]

[-expunge]

[-get [-p] [-ignoreCrc] [-crc] ... ]

[-getfacl [-R] ]

[-getmerge [-nl] ]

[-help [cmd ...]]

[-ls [-d] [-h] [-R] [ ...]]

[-mkdir [-p] ...]

[-moveFromLocal ... ]

[-moveToLocal ]

[-mv ... ]

[-put [-f] [-p] ... ]

[-renameSnapshot ]

[-rm [-f] [-r|-R] [-skipTrash] ...]

[-rmdir [--ignore-fail-on-non-empty]

...]

[-setfacl [-R] [{-b|-k} {-m|-x } ]|[--set ]]

[-setrep [-R] [-w] ...]

[-stat [format] ...]

[-tail [-f] ]

[-test -[defsz] ]

[-text [-ignoreCrc] ...]

[-touchz ...]

[-usage [cmd ...]]

2.2文件的上传、下载和查看

下面的例子中，实现了对hdfs文件的基本操作，包括上传、查看、删除、下载等。

[lfqy@node1 test]$ hdfs dfs -ls

14/12/02 12:30:33 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 1 items

drwxr-xr-x - lfqy supergroup 0 2014-12-02 12:30 temp

[lfqy@node1 test]$ hdfs dfs -put a.txt temp

14/12/02 12:30:44 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

[lfqy@node1 test]$ hdfs dfs -ls temp

14/12/02 12:30:54 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 1 items

-rw-r--r-- 2 lfqy supergroup 57 2014-12-02 12:30 temp/a.txt

[lfqy@node1 test]$ hdfs dfs -get temp/a.txt b.txt

14/12/02 12:31:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

[lfqy@node1 test]$ ls

a.txt

b.txt

[lfqy@node1 test]$ hdfs dfs -cat a.txt

14/12/02 12:31:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

cat: `a.txt': No such file or directory

[lfqy@node1 test]$ hdfs dfs -cat temp/a.txt

14/12/02 12:31:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

This is a test file.

Hello World

How are you?

I am fine.

[lfqy@node1 test]$ hdfs dfs -rm temp/a.txt

14/12/02 12:32:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

14/12/02 12:32:21 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

Deleted temp/a.txt

[lfqy@node1 test]$ hdfs dfs -rm -r temp

14/12/02 12:32:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

14/12/02 12:32:30 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

Deleted temp

3Hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库

表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive是建立在Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据。同时，这个语言也允许熟悉MapReduce 开发者的开发自定义的mapper 和reducer 来处理内建的mapper 和reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。Hive 可以很好的工作在Thrift 之上，控制分隔符，也允许用户指定数据格式。

3.1 Mysql

3.1.1安装

原来的机器上已经有了mysql，试了好几条，终于用命令“service mysqld start”将它启动起来了。对了，还是用的是root用户，一般的用户是没法启动起来的，关键是这个mysql 不是我装的，不知道原来是如何装的。

如果没有的话，要自己安装mysql。

3.1.2启动

在root用户下，用命令“service mysqld start”启动mysql。

3.1.3Mysql connector

安装mysql connector：下载mysql-connector-java-5.1.31.jar 放置$HIVE_HOME/lib，同时也要将这个jar文件拷贝到$HIVE_HOME/lib目录下。

3.2安装包和环境变量

3.2.1解压

这里下载的安装包版本是hive-0.12.0-cdh5.0.1.tar.gz，将这个安装包解压之后，拷贝到/home/lfqy/目录。

3.2.2配置环境变量并生效

在/etc/profile文件中添加如下行，并将使用source /etc/profile命令，让配置生效。

3.3修改Hive的配置文件

Hive的配置文件，主要是在$HIVE_HOME的conf子目录中，主要要修改的配置文件就是hive-site.xml。

首先要将hive-default.xml.template复制并重命名为hive-site.xml，然后，将其中的相应内容作修改，下面的内容是我修改之后和原来的文件做diff得到的：

[root@node1 conf]# diff -c hive-default.xml.template hive-site.xml

*** hive-default.xml.template 2014-05-07 04:38:02.000000000 +0800

--- hive-site.xml 2014-12-02 18:05:39.894646275 +0800

***************

*** 129,141 ****

javax.jdo.option.ConnectionURL

! jdbc:derby:;databaseName=metastore_db;create=true

JDBC connect string for a JDBC metastore

javax.jdo.option.ConnectionDriverName

! org.apache.derby.jdbc.EmbeddedDriver

Driver class name for a JDBC metastore

--- 129,141 ----

javax.jdo.option.ConnectionURL

jdbc:mysql://node1:3306/hive_metastore?createDatabaseIfNotExist=true JDBC connect string for a JDBC metastore

javax.jdo.option.ConnectionDriverName

! com.mysql.jdbc.Driver

Driver class name for a JDBC metastore

***************

*** 159,171 ****

javax.jdo.option.ConnectionUserName

! APP

username to use against metastore database

javax.jdo.option.ConnectionPassword

! mine

password to use against metastore database

--- 159,171 ----

javax.jdo.option.ConnectionUserName

! root

username to use against metastore database

javax.jdo.option.ConnectionPassword

! a123456

password to use against metastore database

***************

*** 2051,2057 ****

hive.metastore.schema.verification

! true

Enforce metastore schema version consistency.

True: Verify that version information stored in metastore matches with one from Hive jars. Also disable automatic

--- 2051,2057 ----

hive.metastore.schema.verification

! false

Enforce metastore schema version consistency.

True: Verify that version information stored in metastore matches with one from Hive jars. Also disable automatic

3.4 Hive的启动和测试

上面的步骤完成之后，运行hive命令，能够成功启动hive。然后运行show databases，

如果没有报错，就说明hive安装成功了。

14/12/02 18:19:58 INFO Configuration.deprecation: mapred.max.split.size is deprecated. Instead, u mapreduce.input.fileinputformat.split.maxsize

14/12/02 18:19:58 INFO Configuration.deprecation: mapred.min.split.size is deprecated. Instead, u mapreduce.input.fileinputformat.split.minsize

14/12/02 18:19:58 INFO Configuration.deprecation: mapred.min.split.size.per.rack is deprecated. I mapreduce.input.fileinputformat.split.minsize.per.rack

14/12/02 18:19:58 INFO Configuration.deprecation: mapred.min.split.size.per.node is deprecated. I mapreduce.input.fileinputformat.split.minsize.per.node

14/12/02 18:19:58 INFO Configuration.deprecation: mapred.reduce.tasks is deprecated. Instead, use m 14/12/02 18:19:58 INFO Configuration.deprecation: mapred.reduce.tasks.speculative.execution is dep mapreduce.reduce.speculative

Logging initialized using configuration in

jar:file:/home/lfqy/hive-0.12.0-cdh5.0.1/lib/hive-common-0.12.0-cdh5.0.1.jar!/hive-log4j.properti SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in

[jar:file:/home/lfqy/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/Stati SLF4J: Found binding in

[jar:file:/home/lfqy/hive-0.12.0-cdh5.0.1/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLogge SLF4J: See https://www.360docs.net/doc/267330622.html,/codes.html#multiple_bindings for an explanation.

SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

hive> show databases;

default

Time taken: 4.093 seconds, Fetched: 1 row(s)

hive>

4Zookeeper

Zookeeper是一个为分布式应用所涉及的开源协调服务。它可以为用户提供同步、配置

管理、分组和命名等服务。用户可以使用Zookeeper提供的接口方便的实现一致性、组管理、

leader选举以及某些协议。Zookeeper提供一个易于编程的环境，所以它的文件协调使用了

我们熟悉的目录树结构。Zookeeper是使用Java语言编写的，但是它支持Java和C两种语

言接口。Zookeeper的设计目的是为了减轻分布式应用程序所承担的协调任务。

4.1实验环境

1，Hadoop版本：2.3.0 集群配置一个主节点node1，两个子节点node3,node4

2，Zookeeper版本：3.4.5

4.2配置Zookeeper

1，在Apache官网下载Zookeeper压缩文件，在你的目录下解压

2，在/etc/profile中添加Zookeeper的环境变量

#zookeeper environments

export ZOOKEEPER_HOME=/home/lfqy/zookeeper-3.4.5-cdh5.1.0

export PATH=$PATH:$ZOOKEEPER_HOME/bin:$ZOOKEEPER_HOME/conf，将

zookeeper目录conf下的zoo_sample.cfg，重命名为zoo.cfg，并改成下面的内容：

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=5

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=2

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/home/lfqy/zookeeper-3.4.5-cdh5.1.0/data

# the port at which the clients will connect

clientPort=2181

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

# https://www.360docs.net/doc/267330622.html,/doc/current/zookeeperAdmin.html#sc_maintenance #

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

server.1=node1:2888:3888

server.2=node3:2888:3888

server.3=node4:2888:3888

3.在主节点node1中，在你所指定的dataDir里（比如我的是

/home/lfqy/zookeeper-3.4.5-cdh5.1.0/data）新建文件myid，内容为1，同理在node2节点中同目录下新建myid内容为2，node3内容为3，和zoo.cfg内容保持一致。

这里可以直接用scp将配置好的安装目录拷贝到其他各个节点，然后将myid文件的内容做相应修改。

4.3运行Zookeeper

1，在zookeeper目录的bin下，运行zkServer.sh start或者./zkServer.sh start，使用jps查看会发现多了一个QuorumPeerMain。

2，连接服务器：minglaihan，./zkCli.sh -server node1:2181

[lfqy@node3 ~]$ zkCli.sh -Server node1:2181

Connecting to localhost:2181

2014-12-03 11:21:01,270 [myid:] - INFO [main:Environment@100] - Client environment:zookeeper.ver 2014-12-03 11:21:01,275 [myid:] - INFO [main:Environment@100] - Client environment:https://www.360docs.net/doc/267330622.html,=nod 2014-12-03 11:21:01,275 [myid:] - INFO [main:Environment@100] - Client environment:java.version= 2014-12-03 11:21:01,276 [myid:] - INFO [main:Environment@100] - Client environment:java.vendor=S 2014-12-03 11:21:01,276 [myid:] - INFO [main:Environment@100] - Client environment:java.home=/us 2014-12-03 11:21:01,277 [myid:] - INFO [main:Environment@100] - Client

environment:java.class.path=/home/lfqy/zookeeper-3.4.5-cdh5.1.0/bin/../build/classes:/home/lfqy/z g4j12-1.7.5.jar:/home/lfqy/zookeeper-3.4.5-cdh5.1.0/bin/../share/zookeeper/slf4j-api-1.7.5.jar:/h e/zookeeper/jline-0.9.94.jar:/home/lfqy/zookeeper-3.4.5-cdh5.1.0/bin/../src/java/lib/*.jar:/home/ 2014-12-03 11:21:01,277 [myid:] - INFO [main:Environment@100] - Client

environment:java.library.path=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0.x86_64/jre/lib/amd64/server 2014-12-03 11:21:01,278 [myid:] - INFO [main:Environment@100] - Client environment:java.io.tmpdi 2014-12-03 11:21:01,278 [myid:] - INFO [main:Environment@100] - Client environment:https://www.360docs.net/doc/267330622.html,piler 2014-12-03 11:21:01,279 [myid:] - INFO [main:Environment@100] - Client environment:https://www.360docs.net/doc/267330622.html,=Linux 2014-12-03 11:21:01,279 [myid:] - INFO [main:Environment@100] - Client environment:os.arch=amd64 2014-12-03 11:21:01,279 [myid:] - INFO [main:Environment@100] - Client environment:os.version=2. 2014-12-03 11:21:01,280 [myid:] - INFO [main:Environment@100] - Client environment:https://www.360docs.net/doc/267330622.html,=lfq 2014-12-03 11:21:01,280 [myid:] - INFO [main:Environment@100] - Client environment:user.home=/ho 2014-12-03 11:21:01,281 [myid:] - INFO [main:Environment@100] - Client environment:user.dir=/hom 2014-12-03 11:21:01,283 [myid:] - INFO [main:ZooKeeper@438] - Initiating client connection, conn ZooKeeper -server host:port cmd args

connect host:port

get path [watch]

ls path [watch]

set path data [version]

rmr path

delquota [-n|-b] path

quit

printwatches on|off

create [-s] [-e] path data acl

stat path [watch]

ls2 path [watch]

history

hadoop2.7.2 伪分布式安装

hadoop：建立一个单节点集群伪分布式操作安装路径为：/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.360docs.net/doc/267330622.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

hadoop集群完整配置过程详细笔记

本文为笔者安装配置过程中详细记录的笔记 1．下载hadoop hadoop-2.7.1.tar.gz hadoop-2.7.1-src.tar.gz 64位linux需要重新编译本地库 2．准备环境 Centos6.4 64位，3台 hadoop0 192.168.1.151namenode hadoop1 192.168.1.152 datanode1 Hadoop2 192.168.1.153 datanode2 1）安装虚拟机： vmware WorkStation 10，创建三台虚拟机，创建时，直接建立用户ha,密码111111.同时为root密码。网卡使用桥接方式。安装盘、 2). 配置IP.创建完成后，设置IP,可以直接进入桌面，在如下菜单下配置IP,配置好后，PING 确认好用。 3)更改三台机器主机名切换到root用户，更改主机名。 [ha@hadoop0 ~]$ su - root Password: [root@hadoop0 ~]# hostname hadoop0 [root@hadoop0 ~]# vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop0 以上两步后重启服务器。三台机器都需要修改。 4）创建hadoop用户由于在创建虚拟机时，已自动创建，可以省略。否则用命令创建。

5）修改hosts文件 [root@hadoop0 ~]# vi /etc/hosts 127.0.0.1 localhostlocalhost.localdomain localhost4 localhost4.localdomain4 ::1localhostlocalhost.localdomain localhost6 localhost6.localdomain6 192.168.1.151 hadoop0 192.168.1.152 hadoop1 192.168.1.153 hadoop2 此步骤需要三台机器都修改。 3．建立三台机器间，无密码SSH登录。 1）三台机器生成密钥，使用hadoop用户操作 [root@hadoop0 ~]# su– ha [ha@hadoop0 ~]$ ssh -keygen -t rsa 所有选项直接回车，完成。以上步骤三台机器上都做。 2）在namenode机器上，导入公钥到本机认证文件 [ha@hadoop0 ~]$ cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys 3）将hadoop1和hadoop2打开/home/ha/.ssh/ id_rsa.pub文件中的内容都拷贝到hadoop0的/home/ha /.ssh/authorized_keys文件中。如下： 4）将namenode上的/home/ha /.ssh/authorized_keys文件拷贝到hadoop1和hadoop2的/home/ha/.ssh文件夹下。同时在三台机器上将authorized_keys授予600权限。 [ha@hadoop1 .ssh]$ chmod 600 authorized_keys 5）验证任意两台机器是否可以无密码登录，如下状态说明成功，第一次访问时需要输入密码。此后即不再需要。 [ha@hadoop0 ~]$ ssh hadoop1 Last login: Tue Aug 11 00:58:10 2015 from hadoop2 4．安装JDK1.7 1）下载JDK（32或64位），解压 [ha@hadoop0 tools]$ tar -zxvf jdk-7u67-linux-x64.tar.gz 2）设置环境变量（修改/etx/profile文件）， export JAVA_HOME=/usr/jdk1.7.0_67 export CLASSPATH=:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin 3）使环境变量生效，然后验证JDK是否安装成功。

Hadoop集群MYSQL的安装指南

前言本篇主要介绍在大数据应用中比较常用的一款软件Mysql，我相信这款软件不紧紧在大数据分析的时候会用到，现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用，而且现在正慢慢的壮大中。在大数据分析的系统中作为离线分析计算中比较普遍的两种处理思路就是：1、写程序利用 mapper-Reducer的算法平台进行分析；2、利用Hive组件进行书写Hive SQL进行分析。第二种方法用到的Hive组件存储元数据最常用的关系型数据库最常用的就是开源的MySQL了，这也是本篇最主要讲解的。技术准备 VMware虚拟机、CentOS 6.8 64 bit、SecureCRT、VSFTP、Notepad++ 软件下载我们需要从Mysql官网上选择相应版本的安装介质，官网地址如下： MySQL下载地址：https://www.360docs.net/doc/267330622.html,/downloads/

默认进入的页面是企业版，这个是要收费的，这里一般建议选择社区开源版本，土豪公司除外。

然后选择相应的版本，这里我们选择通用的Server版本，点击Download下载按钮，将安装包下载到本地。下载完成，上传至我们要安装的系统目录。这里，需要提示下，一般在Linux系统中大型公用的软件安装在/opt目录中，比如上图我已经安装了Sql Server On linux，默认就安装在这个目录中，这里我手动创建了mysql目录。将我们下载的MySQL安装介质，上传至该目录下。

安装流程 1、首先解压当前压缩包，进入目录 cd /opt/mysql/ tar -xf mysql-5.7.16-1.el7.x86_64.rpm-bundle.tar 这样，我们就完成了这个安装包的解压。 2、创建MySql超级管理用户这里我们需要单独创建一个mySQL的用户，作为MySQL的超级管理员用户，这里也方便我们以后的管理。 groupaddmysql 添加用户组 useradd -g mysqlmysql 添加用户 id mysql 查看用户信息。

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

hadoop伪分布式搭建2.0

1. virtualbox安装 1. 1. 安装步骤 1. 2. virtualbox安装出错情况 1. 2.1. 安装时直接报发生严重错误 1. 2.2. 安装好后，打开Vitualbox报创建COM对象失败，错误情况1 1. 2.3. 安装好后，打开Vitualbox报创建COM对象失败，错误情况2 1. 2.4. 安装将要成功，进度条回滚，报“setup wizard ended prematurely”错误 2. 新建虚拟机 2. 1. 创建虚拟机出错情况 2. 1.1. 配制好虚拟光盘后不能点击OK按钮 3. 安装Ubuntu系统 3. 1. 安装Ubuntu出错情况 3. 1.1. 提示VT-x/AMD-V硬件加速在系统中不可用 4. 安装增强功能 4. 1. 安装增强功能出错情况 4. 1.1. 报未能加载虚拟光盘错误 5. 复制文件到虚拟机 5. 1. 复制出错情况 5. 1.1. 不能把文件从本地拖到虚拟机 6. 配置无秘登录ssh 7. Java环境安装 7. 1. 安装Java出错情况 7. 1.1. 提示不能连接 8. hadoop安装 8. 1. 安装hadoop的时候出错情况 8. 1.1. DataNode进程没启动 9. 开机自启动hadoop 10. 关闭服务器（需要时才关） 1. virtualbox安装 1. 1. 安装步骤 1.选择hadoop安装软件中的VirtualBox-6.0.8-130520-Win

2.双击后进入安装界面，然后直接点击下一步 3.如果不想把VirtualBox安装在C盘，那么点击浏览

Hadoop-0.20.2详细安装及疑难问题

安装 2011年4月4日 10:13 Hadoop-0.20.2安装使用 1、Cygwin 安装 ssh 2、按照以下的文档配置ssh 在Windows上安装Ha doop教程.pdf 3、几个配置文件的配置 3.1、conf/core-site.xml https://www.360docs.net/doc/267330622.html, hdfs://localhost:9000 true hadoop.tmp.dir /workspace/temp/hadoop/tmp/hadoop- ${https://www.360docs.net/doc/267330622.html,} true 3.2、conf/hdfs-site.xml dfs.replication 1 true https://www.360docs.net/doc/267330622.html,.dir /workspace/temp/hadoop/data/hadoop/name true

dfs.data.dir /workspace/temp/hadoop/data/hadoop/data true 3.3、conf/mapred-site.xml mapred.job.tracker localhost:9001 true 3.4、conf/hadoop-env.sh export JAVA_HOME=D:/workspace/tools/jdk1.6 4、解决启动的时候 ClassNotFound： org.apache.hadoop.util.PlatformName 将 %hadoop_home%\bin\hadoop-config.sh中的第190行修改为如下： JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m -classpath ${HADOOP_COMMON_HOME}/hadoop-common-0.21.0.jar org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"` 5、命令

hadoop3安装和配置

hadoop3.0.0安装和配置1.安装环境硬件：虚拟机操作系统：Centos 7 64位 IP：192.168.0.101 主机名：dbp JDK：jdk-8u144-linux-x64.tar.gz Hadoop：hadoop-3.0.0-beta1.tar.gz 2.关闭防火墙并配置主机名 [root@dbp]#systemctl stop firewalld #临时关闭防火墙 [root@dbp]#systemctl disable firewalld #关闭防火墙开机自启动 [root@dbp]#hostnamectl set-hostname dbp 同时修改/etc/hosts和/etc/sysconfig/network配置信息 3.配置SSH无密码登陆 [root@dbp]# ssh-keygen -t rsa #直接回车 [root@dbp]# ll ~/.ssh [root@dbp .ssh]# cp id_rsa.pub authorized_keys [root@dbp .ssh]# ssh localhost #验证不需要输入密码即可登录

4.安装JDK 1、准备jdk到指定目录 2、解压 [root@dbp software]# tar–xzvf jdk-8u144-linux-x64.tar.gz [root@dbp software]# mv jdk1.8.0_144/usr/local/jdk #重命名4、设置环境变量 [root@dbp software]# vim ~/.bash_profile 5、使环境变量生效并验证 5.安装Hadoop3.0.0 1、准备hadoop到指定目录 2、解压

Hadoop全分布式安装配置

Hadoop全分布式安装配置一实验目的： 1、了解Hadoop的体系结构、组成； 2、熟练掌握Hadoop的配置、安装方法； 3、通过安装Hadoop了解Hadoop的原理；二实验内容：集群包含三个安装了Linux操作系统的节点。将其中的一个节点作为NameNode，另外两个节点作为DataNode，安装之前先利用ping命令，确认三个节点之间的网络互通，即可以互相ping通。假设三个节点IP地址如下，实际的集群节点IP地址可以不同。 NameNode：192.168.198.2 主机名：master DataNode1：192.168.198.3 主机名：slaver1 DataNode2：192.168.198.4 主机名：slaver2 三实验环境：在申请的虚拟服务器上安装了VMWare Workstation虚拟3个Ubuntu14.04系统。四安装配置过程： 1、安装Vmware WorkStation软件下载安装Vmware WorkStation12.0软件。 2、在虚拟机上安装linux操作系统在Vmware WorkStation12.0中创建一个Ubuntu14.04系统。拷贝镜像文件复制出三个系统。分别为master、slaver1、slaver2。 3、配置hosts、hostname文件

在三台机器上配置相同的hosts文件（1）修改hosts sudo gedit /etc/hosts 192.168.198.200 master 192.168.198.199 slave1 192.168.198.198 slave2 （2）修改hostname sudo gedit /etc/hostname 4、配置ip地址配置ip：sudo gedit /etc/network/interfaces slave2 auto eth0 iface eth0 inet static address 192.168.198.198 gateway 192.168.198.107 netmask 255.255.255.0 slave1 auto eth0 iface eth0 inet static address 192.168.198.199 gateway 192.168.198.107 netmask 255.255.255.0 master auto eth0 iface eth0 inet static address 192.168.198.200 gateway 192.168.198.107 netmask 255.255.255.0

centos下hadoop2.6.0配置

Hadoop-2.6.0配置前面的部分跟配置Hadoop-1.2.1的一样就可以，什么都不用变，完全参考文档1即可。下面的部分就按照下面的做就可以了。 hadoop-2.6.0的版本用张老师的。下面的配置Hadoop hadoop-2.6.0的部分 1.修改hadoop- 2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持： export JAVA_HOME=/usr/java/jdk1.6.0_45 如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。 2.修改hadoop-2.6.0/etc/hadoop/core-site.xml 注意：必须加在节点内 hadoop.tmp.dir /home/hadoop/hadoop-2.6.0/tmp Abase for other temporary directories. https://www.360docs.net/doc/267330622.html, hdfs://master:9000 3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml https://www.360docs.net/doc/267330622.html,.dir /home/hadoop/hadoop-2.6.0/dfs/name Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. dfs.data.dir /home/hadoop/hadoop-2.6.0/dfs/data Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks. dfs.replication 1 4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

在windows下安装hadoop

在windows下通过安装cygwin模拟linux环境，然后再安装hadoop，是一种简单方便的方式。首先是搭建cygwin环境：一、安装cygwin 二、安装sshd服务三、启动sshd服务四、配置ssh无密码登录一、此处无话可说，按照网上的文档，选择必要的组件即可。二、 1 以管理员身份运行cygwin 2 输入：ssh-host-config 有关键的两步：*** Query: Do you want to use a different name? (yes/no)选择yes *** Query: Create new privileged user account 'cyg_server'? (yes/no) 选择yes 创建的用户名最好为新的用户名，密码最好与windows用户的密码一致三、在开始菜单运ervices.msc或其他手段进入服务列表，找到cygwin sshd服务，查看属性是否为上一步的用户名登陆的，否则更改之。此时可能不能启动，需要在计算机右击“管理”，用户和组的管理中将上面的用户加入管理员的组，即授予管理员权限。四、此时使用ssh服务，即输入：ssh localhost会要求输入密码，若显示为“last login:......”则说明已经正确安装ssh服务并且可以启动。接下来是配置ssh的无密码登陆： 1输入：ssh-keygen （一直回车，一般是三次回车） 2 输入：cd ~/.ssh 3 输入：cp id_rsa.pub authorized_keys 此时输入exit退出cygwin，再次以管理员身份进入cygwin，输入ssh localhost，若没有要求输入密码便显示“last login.....”则说明成功了。接下来是安装Hadoop：一、安装JDK 二、下载hadoop及配置hadoop环境三、格式化namenode 四、启动hadoop

(完整word版)hadoop安装教程

1、VMware安装我们使用Vmware 14的版本，傻瓜式安装即可。（只要）双击如过 2.安装xshell 双击 3.安装镜像：解压centos6.5-empty解压双击打开CentOS6.5.vmx 如果打不开，在cmd窗口中输入：netsh winsock reset 然后重启电脑。进入登录界面，点击other 用户名：root 密码：root 然后右键open in terminal 输入ifconfig 回车查看ip地址

打开xshell

点击链接如果有提示，则接受输入用户名：root 输入密码：root 4.xshell连接虚拟机打开虚拟机，通过ifconfig查看ip

5.安装jkd 1.解压Linux版本的JDK压缩包 mkdir：创建目录的命令 rm -rf 目录/文件删除目录命令 cd 目录进入指定目录 rz 可以上传本地文件到当前的linux目录中（也可以直接将安装包拖到xshell窗口） ls 可以查看当前目录中的所有文件 tar 解压压缩包（Tab键可以自动补齐文件名）

pwd 可以查看当前路径文档编辑命令: vim 文件编辑命令 i:进入编辑状态 Esc（左上角）：退出编辑状态 :wq 保存并退出 :q! 不保存退出 mkdir /home/software #按习惯用户自己安装的软件存放到/home/software目录下 cd /home/software #进入刚刚创建的目录 rz 上传jdk tar包 #利用xshell的rz命令上传文件(如果rz命令不能用，先执行yum install lrzsz -y ，需要联网) tar -xvf jdk-7u51-linux-x64.tar.gz #解压压缩包 2.配置环境变量 1）vim /etc/profile 2）在尾行添加 #set java environment JAVA_HOME=/home/software/jdk1.8.0_65 JAVA_BIN=/home/software/jdk1.8.0_65/bin PATH=$JAVA_HOME/bin:$PATH CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH Esc 退出编辑状态 :wq #保存退出注意JAVA_HOME要和自己系统中的jdk目录保持一致，如果是使用的rpm包安

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。这里我使用QJM完成。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode 1安装前准备 1.1示例机器 192.168.0.10 hadoop1 192.168.0.20 hadoop2 192.168.0.30 hadoop3 192.168.0.40 hadoop4 每台机器都有一个hadoop用户，密码是hadoop 所有机器上安装jdk1.7。在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。 1.2配置ip与hostname 用root用户修改每台机器的hosts

hadoop安装简要过程和相关配置文件

Hadoop安装简要过程及配置文件 1、机器准备 ①、Linux版操作系统centos 6.x ②、修改主机名，方便配置过程中记忆。修改文件为： /etc/sysconfig/network 修改其中的HOSTNAME即可 ③、配置局域网内，主机名与对应ip，并且其中集群中所有的机器的文件相同，修改文件为 /etc/hosts 格式为： 10.1.20.241 namenode 10.1.20.242 datanode1 10.1.20.243 datanode2 2、环境准备 ①、配置ssh免密码登陆，将集群中master节点生成ssh密码文件。具体方法： 1）、ssh-keygen -t rsa 一直回车即可,将会生成一份 ~/.ssh/ 文件夹，其中id_rsa为私钥文件 id_rsa.pub公钥文件。 2）、将公钥文件追加到authorized_keys中然后再上传到其他slave节点上追加文件： cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 上传文件： scp ~/.ssh/authorized_keys root@dananode:~/.ssh/ 3）、测试是否可以免密码登陆：ssh 主机名或局域网ip ②、配置JDK ③、创建hadoop用户 groupadd hadoop useradd hadoop -g hadoop 4)、同步时间 ntpdate https://www.360docs.net/doc/267330622.html, 5）、关闭防火墙 service iptables stop 3、安装cdh5 进入目录/data/tools/ (个人习惯的软件存储目录，你可以自己随便选择)； wget "https://www.360docs.net/doc/267330622.html,/cdh5/one-click-install/redhat/ 6/x86_64/cloudera-cdh-5-0.x86_64.rpm" yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm 添加cloudera仓库验证： rpm --importhttps://www.360docs.net/doc/267330622.html,/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

Hadoop入门—Linux下伪分布式计算的安装与wordcount的实例展示

开始研究一下开源项目hadoop，因为根据本人和业界的一些分析，海量数据的分布式并行处理是趋势，咱不能太落后，虽然开始有点晚，呵呵。首先就是安装和一个入门的小实例的讲解，这个恐怕是我们搞软件开发的，最常见也最有效率地入门一个新鲜玩意的方式了，废话不多说开始吧。本人是在ubuntu下进行实验的，java和ssh安装就不在这里讲了，这两个是必须要安装的，好了我们进入主题安装hadoop： 1.下载hadoop-0.20.1.tar.gz： https://www.360docs.net/doc/267330622.html,/dyn/closer.cgi/hadoop/common/ 解压：$ tar –zvxf hadoop-0.20.1.tar.gz 把Hadoop 的安装路径添加到环/etc/profile 中: export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1 export PATH=$HADOOP_HOME/bin:$PATH 2.配置hadoop hadoop 的主要配置都在hadoop-0.20.1/conf 下。 (1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同)： $ gedit hadoop-env.sh $ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14 3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配置，datanode 的配置相同) core-site.xml: hadoop.tmp.dir /home/yangchao/tmp A base for other temporary directories. https://www.360docs.net/doc/267330622.html, hdfs://localhost:9000 hdfs-site.xml:( replication 默认为3，如果不修改，datanode 少于三台就会报错)

实验3 Hadoop安装与配置2-伪分布式

实验报告封面课程名称： Hadoop大数据处理课程代码： JY1124 任课老师：宁穗实验指导老师: 宁穗实验报告名称：实验3 Hadoop安装与配置2 学生：学号：教学班：递交日期：签收人：我申明，本报告的实验已按要求完成，报告完全是由我个人完成，并没有抄袭行为。我已经保留了这份实验报告的副本。申明人(签名): 实验报告评语与评分：评阅老师签名：

一、实验名称：Hadoop安装与配置二、实验日期：2015年9 月25 日三、实验目的： Hadoop安装与配置。四、实验用的仪器和材料：安装环境:以下两个组合之一 1.硬件环境：存ddr3 4G及以上的x86架构主机一部系统环境：windows 、linux或者mac os x 软件环境：运行vmware或者virtualbox (2) 存ddr 1g及以上的主机两部及以上五、实验的步骤和方法：本次实验重点在ubuntu中安装jdk以及hadoop。一、关闭防火墙 sudo ufw disable iptables -F 二、jdk的安装 1、普通用户下添加grid用户

2、准备jdk压缩包，把jdk压缩包放到以上目录（此目录可自行设置） 3、将jdk压缩包解压改名改名为jdk：mv jdk1.7.0_45 jdk 移动到/usr目录下：mv jdk /usr（此目录也可自行设置，但需与配置文件一致）4、设置jdk环境变量此采用全局设置方法，更改/etc/profile文件 sudo gedit /etc/profile 添加（根据情况自行设置） export JA VA_HOME=/usr/jdk export JRE_HOME=/usr/ jdk/jre export CLASSPATH=.:$JA V A_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PA TH=$JA V A_HOME/bin: $JRE_HOME/ bin: $PATH 然后保存。 5、检验是否安装成功 java -version 二、ssh免密码 1、退出root用户，su grid 生成密钥 ssh-keygen –t rsa

Hadoop的安装与配置及示例wordcount的运行

Hadoop的安装与配置及示例程序 wordcount的运行目录前言 (1) 1 机器配置说明 (2) 2 查看机器间是否能相互通信（使用ping命令） (2) 3 ssh设置及关闭防火墙 (2) 1）fedora装好后默认启动sshd服务，如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status (3) 2）关闭防火墙（NameNode和DataNode都必须关闭） (3) 4 安装jdk1.6(集群中机子都一样) (3) 5 安装hadoop(集群中机子都一样) (4) 6 配置hadoop (4) 1）配置JA V A环境 (4) 2）配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件 (5) 3）将NameNode上完整的hadoop拷贝到DataNode上，可先将其进行压缩后直接scp 过去或是用盘拷贝过去 (7) 4）配置NameNode上的conf/masters和conf/slaves (7) 7 运行hadoop (7) 1）格式化文件系统 (7) 2）启动hadoop (7) 3）用jps命令查看进程，NameNode上的结果如下： (8) 4）查看集群状态 (8) 8 运行Wordcount.java程序 (8) 1）先在本地磁盘上建立两个文件f1和f2 (8) 2）在hdfs上建立一个input目录 (9) 3）将f1和f2拷贝到hdfs的input目录下 (9) 4）查看hdfs上有没有f1,f2 (9) 5)执行wordcount（确保hdfs上没有output目录） (9) 6）运行完成，查看结果 (9) 前言最近在学习Hadoop，文章只是记录我的学习过程，难免有不足甚至是错误之处，请大家谅解并指正！Hadoop版本是最新发布的Hadoop-0.21.0版本，其中一些Hadoop命令已发生变化，为方便以后学习，这里均采用最新命令。具体安装及配置过程如下：

Hadoop详细安装配置过程

1.下载并安装安装ssh sudo apt-get install openssh-server openssh-client 3.搭建vsftpd #sudo apt-get update #sudo apt-get install vsftpd 配置参考的开始、关闭和重启 $sudo /etc/vsftpd start #开始 $sudo /etc/vsftpd stop #关闭 $sudo /etc/vsftpd restart #重启 4.安装 sudo chown -R hadoop:hadoop /opt cp /soft/ /opt sudo vi /etc/profile alias untar='tar -zxvf' sudo source /etc/profile source /etc/profile untar jdk* 环境变量配置 # vi /etc/profile ●在profile文件最后加上 # set java environment export JAVA_HOME=/opt/ export CLASSPATH=.:$JAVA_HOME/lib/:$JAVA_HOME/lib/ export PATH=$JAVA_HOME/bin:$PATH 配置完成后，保存退出。 ●不重启，更新命令 #source /etc/profile ●测试是否安装成功 # Java –version 其他问题：出现unable to resolve host 解决方法参考开机时停在Starting sendmail 不动了的解决方案参考安装软件时出现E: Unable to locate package vsftpd 参考vi/vim 使用方法讲解参考分类: Hadoop

hadoop环境配置入门教程

ubuntu 下安装配置hadoop 1.0.4 第一次搞hadoop，折腾我2天，功夫不负有心人，终于搞好了，现在来分享下，我的环境操作系统：wmv虚拟机中的ubuntu12.04 hadoop版本：hadoop-1.0.4(听说是稳定版就下了) eclipse版本：eclipse-jee-indigo-SR2-win32 1.先安装好jdk，然后配置好jdk的环境变量，在这里我就不累赘了！网上多的是 2.安装ssh这个也不用说了 2.把hadoop-1.0.4.tar.gz拖到虚拟机中，解压,比如: /home/wys/Documents/hadoop-1.0.4/ (有的还单独建了个用户,为了舍去不必要的麻烦我都是用root用户来操作的) 3.修改hadoop-1.0.4/conf 下面的core-site.xml文件，如下： https://www.360docs.net/doc/267330622.html, hdfs://192.168.116.128:9000 hadoop.tmp.dir /home/wys/Documents/tmp

192.168.116.128这个是虚拟机中ubuntu的ip,听说用localhost，127.0.0.1都不行，我没试过，直接写上ip地址了 tmp是预先创建的一个目录 4.修改hadoop-env.sh 把export JAVA_HOME=xxxxxx 这行的#号去掉，写上jdk的目录路径 5.修改hdfs-site.xml如下： dfs.replication 1 dfs.permissions false 说明：为了以后用eclipse开发出现各种问题，就把权限关了！