全球焦点!大数据必知必会:Hadoop(3)集群环境安装
腾讯云 2023-02-10 12:00:44

安装前准备

集群环境下,至少需要3台服务器。


(相关资料图)

IP地址

主机名称

10.0.0.5

node1

10.0.0.6

node2

10.0.0.7

node3

需要保证每台服务器的配置都一致,以下步骤在3台服务器上都需要做一次。

操作系统准备

本次安装采用的操作系统是Ubuntu 20.04。

更新一下软件包列表。

sudo apt-get update

安装Java 8+

使用命令安装Java 8。

sudo apt-get install -y openjdk-8-jdk

配置环境变量。

vi ~/.bashrcexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

让环境变量生效。

source ~/.bashrc

下载Hadoop安装包

从Hadoop官网Apache Hadoop下载安装包软件。

image-20230120200957218

或者直接通过命令下载。

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
image-20230122004400490

分布式集群安装

分布式集群是在多个节点上运行进程来实现Hadoop集群。

配置域名解析

在后续使用过程中,都使用主机名称,所以需要配置域名解析。

配置 /etc/hosts

由于该配置文件的修改需要root权限,所以在每个节点上都手动配置。

10.0.0.5 node110.0.0.6 node210.0.0.7 node3

以下配置过程在node1上完成,并且配置完成后将配置文件复制到其他节点。

配置免密登录

Hadoop分布式集群的运行,需要配置密钥对实现免密登录。

创建公私钥对
hadoop@node1:~$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/hadoop/.ssh/id_rsaYour public key has been saved in /home/hadoop/.ssh/id_rsa.pubThe key fingerprint is:SHA256:pp2AC1bQAQ5J6CJJCij1QA7bgKOsVxpoPVNi+cxhcyg hadoop@node1The key"s randomart image is:+---[RSA 3072]----+|O=*oo..          ||OX E.* .         ||X+* @ +          ||B+.=.=           ||= o++ . S        ||..o. . = .       || .  . . o        ||                 ||                 |+----[SHA256]-----+
复制公钥
hadoop@node1:~$ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
复制到其他节点
hadoop@node1:~$ scp -r .ssh node1:~/id_rsa.pub                                   100%  566     1.7MB/s   00:00    authorized_keys                              100%  566     2.0MB/s   00:00    known_hosts                                  100% 1332     4.5MB/s   00:00    id_rsa                                       100% 2602    10.1MB/s   00:00    hadoop@node1:~$ scp -r .ssh node2:~/hadoop@node2"s password: id_rsa.pub                                   100%  566   934.6KB/s   00:00    authorized_keys                              100%  566   107.3KB/s   00:00    known_hosts                                  100% 1332     2.5MB/s   00:00    id_rsa                                       100% 2602     4.8MB/s   00:00    hadoop@node1:~$ scp -r .ssh node3:~/hadoop@node3"s password: id_rsa.pub                                   100%  566     1.0MB/s   00:00    authorized_keys                              100%  566     1.3MB/s   00:00    known_hosts                                  100% 1332     2.8MB/s   00:00    id_rsa                                       100% 2602     5.2MB/s   00:00    

确保执行ssh命令的时候不需要输入密码。

hadoop@node1:~$ ssh node1hadoop@node1:~$ ssh node2hadoop@node1:~$ ssh node3

解压安装包

将安装包解压到目标路径。

hadoop@node1:~$ mkdir -p appshadoop@node1:~$ tar -xzf hadoop-3.3.4.tar.gz -C apps
image-20230122005658601

bin目录下存放的是Hadoop相关的常用命令,比如操作HDFS的hdfs命令,以及hadoop、yarn等命令。

etc目录下存放的是Hadoop的配置文件,对HDFS、MapReduce、YARN以及集群节点列表的配置都在这个里面。

sbin目录下存放的是管理集群相关的命令,比如启动集群、启动HDFS、启动YARN、停止集群等的命令。

share目录下存放了一些Hadoop的相关资源,比如文档以及各个模块的Jar包。

配置环境变量

在集群的每个节点上都配置Hadoop的环境变量,Hadoop集群在启动的时候可以使用start-all.sh一次性启动集群中的HDFS和Yarn,为了能够正常使用该命令,需要将其路径配置到环境变量中。

hadoop@node1:~$ vi ~/.bashrcexport HADOOP_HOME=/home/hadoop/apps/hadoop-3.3.4export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoopexport YARN_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoopexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使环境变量生效。

hadoop@node1:~$ source ~/.bashrc

配置Hadoop集群

Hadoop软件安装完成后,每个节点上的Hadoop都是独立的软件,需要进行配置才能组成Hadoop集群。Hadoop的配置文件在$HADOOP_HOME/etc/hadoop目录下,主要配置文件有6个:

hadoop-env.sh主要配置Hadoop环境相关的信息,比如安装路径、配置文件路径等;core-site.xml是Hadoop的核心配置文件,主要配置了Hadoop的NameNode的地址、Hadoop产生的文件目录等信息;hdfs-site.xml是HDFS分布式文件系统相关的配置文件,主要配置了文件的副本数、HDFS文件系统在本地对应的目录等;mapred-site.xml是关于MapReduce的配置文件,主要配置MapReduce在哪里运行;yarn-site.xml是Yarn相关的配置文件,主要配置了Yarn的管理节点ResourceManager的地址、NodeManager获取数据的方式等;workers是集群中节点列表的配置文件,只有在这个文件里面配置了的节点才会加入到Hadoop集群中,否则就是一个独立节点。

这几个配置文件如果不存在,可以通过复制配置模板的方式创建,也可以通过创建新文件的方式创建。需要保证在集群的每个节点上这6个配置保持同步,可以在每个节点单独配置,也可以在一个节点上配置完成后同步到其他节点。

hadoop-env.sh配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64export HADOOP_HOME=/home/hadoop/apps/hadoop-3.3.4export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-3.3.4/etc/hadoopexport HADOOP_LOG_DIR=/home/hadoop/logs/hadoop

core-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/core-site.xml          fs.defaultFS      hdfs://node1:8020              hadoop.tmp.dir      /home/hadoop/data/hadoop/temp              hadoop.proxyuser.hadoop.hosts      *              hadoop.proxyuser.hadoop.groups      *    

hdfs-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml            dfs.replication        3              dfs.namenode.name.dir      /home/hadoop/data/hadoop/hdfs/name              dfs.datanode.data.dir      /home/hadoop/data/hadoop/hdfs/data    

mapred-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/mapred-site.xml            mapreduce.framework.name        yarn                mapreduce.application.classpath        $HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*    

yarn-site.xml配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/yarn-site.xml          yarn.nodemanager.aux-services      mapreduce_shuffle                  yarn.resourcemanager.hostname        node1    

workers配置

hadoop@node1:~$ vi $HADOOP_HOME/etc/hadoop/workersnode1node2node3

将软件及配置信息复制到其他节点

在node1上配置好环境变量及配置文件,可以手动再在其他节点上完成同样的配置,或者直接将node1的文件复制到其他节点。

hadoop@node1:~$ scp -r .bashrc apps node2:~/hadoop@node1:~$ scp -r .bashrc apps node3:~/

格式化NameNode

在启动集群前,需要对NameNode进行格式化,在node1上执行以下命令:

hadoop@node1:~$ hdfs namenode -format

启动集群

在node1上执行start-all.sh命令启动集群。

hadoop@node1:~$ jps55936 Jpshadoop@node1:~$ start-all.shWARNING: Attempting to start all Apache Hadoop daemons as hadoop in 10 seconds.WARNING: This is not a recommended production deployment configuration.WARNING: Use CTRL-C to abort.Starting namenodes on [node1]Starting datanodesnode2: WARNING: /home/hadoop/logs/hadoop does not exist. Creating.node3: WARNING: /home/hadoop/logs/hadoop does not exist. Creating.Starting secondary namenodes [node1]WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.Starting resourcemanagerWARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.Starting nodemanagersWARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.node3: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.node2: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.node1: WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.hadoop@node1:~$ jps57329 ResourceManager57553 NodeManager57027 SecondaryNameNode58165 Jps56437 NameNode56678 DataNode

验证Hadoop

访问HDFS

上传一个文件到HDFS。

hdfs dfs -put .bashrc /

打开HDFS Web UI查看相关信息,默认端口9870。

image-20230122011646516
image-20230122011729528
image-20230122011803241

访问YARN

打开YARN Web UI查看相关信息,默认端口8088。

image-20230122011843198

相关命令

HDFS相关的命令

操作HDFS使用的命令是hdfs,命令格式为:

Usage: hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]

支持的Client命令主要有:

Client Commands:classpath            prints the class path needed to get the hadoop jar and the required librariesdfs                  run a filesystem command on the file systemenvvars              display computed Hadoop environment variablesfetchdt              fetch a delegation token from the NameNodegetconf              get config values from configurationgroups               get the groups which users belong tolsSnapshottableDir   list all snapshottable dirs owned by the current usersnapshotDiff         diff two snapshots of a directory or diff the current directory contents with a snapshotversion              print the version

YARN相关的命令

操作HDFS使用的命令是yarn,命令格式为:

Usage: yarn [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS] or    yarn [OPTIONS] CLASSNAME [CLASSNAME OPTIONS]  where CLASSNAME is a user-provided Java class

支持的Client命令主要有:

Client Commands:applicationattempt   prints applicationattempt(s) reportapp|application      prints application(s) report/kill application/manage long running applicationclasspath            prints the class path needed to get the hadoop jar and the required librariescluster              prints cluster informationcontainer            prints container(s) reportenvvars              display computed Hadoop environment variablesfs2cs                converts Fair Scheduler configuration to Capacity Scheduler (EXPERIMENTAL)jar             run a jar filelogs                 dump container logsnodeattributes       node attributes cli clientqueue                prints queue informationschedulerconf        Updates scheduler configurationtimelinereader       run the timeline reader servertop                  view cluster informationversion              print the version

yarn jar 可以执行一个jar文件。

验证案例1,统计含有“dfs”的字符串

创建一个input目录。

hadoop@node1:~$ hdfs dfs -mkdir /input

将Hadoop的配置文件复制到input目录下。

hadoop@node1:~$ hdfs dfs -put apps/hadoop-3.3.4/etc/hadoop/*.xml /input/

以下命令用于执行一个Hadoop自带的样例程序,统计input目录中含有dfs的字符串,结果输出到output目录。

hadoop@node1:~$ yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar grep /input /output "dfs[a-z.]+"
image-20230122012114789

在YARN上可以看到提交的Job。

image-20230122012159358

执行结果为:

hadoop@node1:~$ hdfs dfs -cat /output/*1       dfsadmin1       dfs.replication1       dfs.namenode.name.dir1       dfs.datanode.data.dir
验证案例2,计算圆周率

同样执行Hadoop自带的案例,计算圆周率。

hadoop@node1:~$ yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 10

执行结果为:

hadoop@node1:~$ yarn jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 10WARNING: YARN_CONF_DIR has been replaced by HADOOP_CONF_DIR. Using value of YARN_CONF_DIR.Number of Maps  = 10Samples per Map = 10Wrote input for Map #0Wrote input for Map #1Wrote input for Map #2Wrote input for Map #3Wrote input for Map #4Wrote input for Map #5Wrote input for Map #6Wrote input for Map #7Wrote input for Map #8Wrote input for Map #9Starting Job... ...Job Finished in 43.014 secondsEstimated value of Pi is 3.20000000000000000000

在YARN上可以看到提交的Job。

image-20230122012444050

全球焦点!大数据必知必会:Hadoop(3)集群环境安装

2023-02-10 12:00:44

WhatsApp即将推出固定消息的功能 最新消息

2023-02-10 10:49:40

中兴通讯是国企吗 当前报道

2023-02-10 10:04:41

世界速读:连续14年戴帽!C罗4数据甩开梅西,30岁后比30岁前更强

2023-02-10 09:08:12

天天看点:首次杀入世俱杯决赛,沙特重奖球员

2023-02-10 06:53:45

美的电烤箱怎么调时间温度_美的电烤箱怎么用|每日短讯

2023-02-10 05:54:11

小学二年级作文美好的礼物_焦点热议

2023-02-10 03:07:22

每日视讯:姓名打分_董其伍

2023-02-10 01:35:33

天天快播:被称为海上花园是中国大陆哪个城市_海上花园之称的是哪个城市

2023-02-09 23:50:01

伽罗是历史人物吗_伽罗简单介绍

2023-02-09 22:02:31

美英澳举行联合空军演习,目标中国?

2023-02-09 20:52:17

财面儿|蓝光发展:控股股东蓝光集团被动减持公司1.87%股份 天天热点

2023-02-09 18:43:49

特殊电话号码有哪些 完全免费的公共服务号码

2023-02-09 18:12:50

当前快播:赵文卓的老婆_关于赵文卓的老婆的介绍

2023-02-09 17:02:24

成都到泸州高铁_成都到泸州

2023-02-09 15:12:02

今日视点:耸的拼音和组词 汉字耸的拼音和组词

2023-02-09 14:01:20

5成电动车起火发生在非充电状态网友呼吁禁售锂电池电瓶车 当前动态

2023-02-09 12:48:31

西部太疯狂!欧文加盟独行侠,湖人摆脱威少,勇士或有大动作

2023-02-09 11:08:53

江歌案最新进展2021 江歌案最新进展是什么情况-环球短讯

2023-02-09 10:17:32

演员曹操是中国国籍吗_演员曹操

2023-02-09 10:07:46

推特迎来巨大变化:推文字数限制提高到4000个 环球观焦点

2023-02-09 07:54:35

马云保密项目重启 Trusple平台是什么?

2023-02-09 06:17:42

当前热讯:湖南省隆回县第二中学_关于湖南省隆回县第二中学介绍

2023-02-09 05:52:01

视频卡点模板软件app_视频卡点-焦点消息

2023-02-09 02:43:28

妇女节日记600字5篇-天天热推荐

2023-02-09 02:32:50

4套交易方案之外,戈登仍有第5条出路?火箭可选操作,已经不多了

2023-02-09 00:12:05

每日热文:转正工作总结报告(最新10篇)范文

2023-02-08 22:17:25

CD法斯足球俱乐部_环球看热讯

2023-02-08 21:54:34

河南省发布道路结冰黄色预警|新消息

2023-02-08 19:05:37

全球热头条丨国际冲浪好手冲浪技巧总结

2023-02-08 18:48:39

热头条丨利通科技:2月7日接受机构调研,首创证券、江海证券参与

2023-02-08 18:01:14

焦点资讯:空置12年!桂澜路靓地翻生!做青少年科普教育+汽车展销

2023-02-08 15:59:33

关注:2023年在绵阳购买新能源汽车免征车辆购置税吗?

2023-02-08 15:02:30

全球动态:生产计划专员的岗位职责内容7篇

2023-02-08 14:48:21

昆明市政协委员建议:以全链条建设让传统医药成为康养旅游新产品 天天要闻

2023-02-08 12:46:37

提前还房贷要等待5个月,排队到7月? 网友:借钱也要还掉!-环球聚焦

2023-02-08 11:33:03

J类法兰铸铁1.0MPa截止阀-焦点短讯

2023-02-08 10:56:07

校运会广播稿

2023-02-08 10:45:31

环球通讯!河南省机关事业单位工勤技能岗位考试成绩查询_河南省机关事业单位工勤技能岗位考试成绩在那里查询 帮忙查

2023-02-08 08:44:14

今日最新!为你服务教育课件中心_为你服务网课件中心

2023-02-08 06:50:40

长辈生日祝福句子-环球今日讯

2023-02-08 06:09:02

天天速读:MC李耀阳

2023-02-08 03:50:06

【独家焦点】蓝田玉暖日生烟的典故_蓝田玉暖日生烟

2023-02-08 02:05:29

网吧有没有免费加速器_坦克世界免费网吧特权加速器|世界快消息

2023-02-08 01:08:59

毛沙是什么-世界观速讯

2023-02-07 22:40:10

世界热资讯!六出祁山的故事20字_六出祁山的故事

2023-02-07 22:32:21

车辆隧道内抛锚,监控员紧急处置排险-当前要闻

2023-02-07 18:01:13

bnu是哪个大学 热头条

2023-02-07 17:15:57

2023武汉情人节音乐会时间及门票大全(持续更新)

2023-02-07 16:03:09

世界热门:融创中国1月销售额72亿,同比下降74%

2023-02-07 15:03:37

工会结构化面试题库及答案_工会结构化面试题

2023-02-07 14:28:59

白腹拟䳍-环球观天下

2023-02-07 11:46:14

一生痴心-今日播报

2023-02-07 10:58:31

羊了个羊第二关通关技巧-第二关通关秘籍_全球快看点

2023-02-07 08:24:38

指挥官为什么一定要吃我吃过的苹果糖啊……【碧蓝航线】 每日观察

2023-02-07 05:55:53

2月6日基金净值:广发新兴产业混合A最新净值2.66,跌0.64%

2023-02-07 02:32:12

新疆:仓单有效预报快速增加 农民资金需求压力缓解-世界播报

2023-02-06 23:45:34

每日信息:周内油价连续回调——能源产业周报

2023-02-06 21:41:54

上海勇品实业有限公司-每日看点

2023-02-06 20:29:15

西甲-阿森西奥失点纳乔乌龙 皇马爆冷0-1马洛卡

2023-02-06 17:45:32

上海嘉旖装饰材料有限公司 当前速看

2023-02-06 16:23:42

大族激光:公司光刻机项目主要应用在分立器件领域,分辨率3-5μm,其中,接近式光刻机已投入市场-今日热文

2023-02-06 14:28:18

广州荔湾区公租房轮候申请收入标准要求多少?_百事通

2023-02-06 13:05:45

安徽警官职业学院排名多少在安徽排第几位怎么样好不好|环球最新

2023-02-06 11:23:01

车上老人身体不适公交司机陪护就医|全球看点

2023-02-06 10:48:21

世界最新:彩灯师最高年入百万,“宇宙第一”自贡灯会图谋升级转型

2023-02-06 07:38:42

大神你人设崩了笔趣阁_大神你人设又崩了txt下载

2023-02-06 04:45:00

环球快看:闹元宵!2023广府庙会盛大开幕

2023-02-06 00:56:26

世界微速讯:成都大运会3D动画宣传片《哪吒蓉宝奇遇记》:爱连世界 共向未来

2023-02-05 22:50:52

海口美兰国际机场正式启动“空陆联运”卡车航班业务[图] 每日动态

2023-02-05 20:47:37

(新春走基层)贵州务川:“炸龙嘘花”闹元宵|世界观焦点

2023-02-05 18:52:40

东莞市哈特曼五金科技有限公司|天天观热点

2023-02-05 16:36:28

比亚迪1月销量:汉卖出1.22万辆 宋Plus继续火爆|天天新资讯

2023-02-05 13:26:48

今日沃派畅享卡主资费包_迁转_沃派畅享卡 天天即时看

2023-02-05 11:46:25

今日热闻!丝路凝聚力盛典

2023-02-05 10:11:24

joola

2023-02-05 08:03:57

王若子 全球新要闻

2023-02-05 04:59:21

全球播报:追组词两字_追组词

2023-02-05 00:47:29

ChatGPT,一个称职的文字工作“打工人”

2023-02-04 22:50:15

5l花生油是多少斤_花生油1升等于多少斤

2023-02-04 20:41:51

天天新消息丨中国普惠金融发展报告

2023-02-04 19:01:12

中国银行股份有限公司福州金山支行_要闻速递

2023-02-04 17:23:08

安卓手机如何打开.mp41文件

2023-02-04 13:55:21

滚动:一线顶流的恋爱史 从全网心碎到现在被疯狂催婚?

2023-02-04 12:25:50

中海国际船舶管理有限公司-看热讯

2023-02-04 11:19:57

如果岁月可回头演职人员表_你有看过吗-天天快资讯

2023-02-04 07:43:32

化物语虐吗_化物语为什么被禁-世界时快讯

2023-02-04 05:37:52

为什么不能开李世民墓_不能开李世民墓的原因

2023-02-04 02:55:53

焦点要闻:苏炳添赛季首秀6秒59夺冠

2023-02-04 00:49:06

乌克兰乌曼国立师范学院

2023-02-03 23:04:38

柳钢集团召开2023年银企座谈会,探索共赢发展新途径

2023-02-03 20:17:49

【播资讯】乌鲁木齐五鸿建设投资有限公司

2023-02-03 18:52:46

山西传媒学院怎么样好不好附山西传媒学院最好的专业排名及王牌专业介绍 当前通讯

2023-02-03 17:01:24

沈阳康辉国际旅行社

2023-02-03 16:35:42

数学荒岛历险记第二部全集_关于数学荒岛历险记第二部全集的基本详情介绍

2023-02-03 14:13:30

什么是集体土地房屋所有权-天天新视野

2023-02-03 12:05:55

荣信文化2月3日盘中涨幅达5%_焦点消息

2023-02-03 10:19:03

杀妻骗保泰国开庭 泰国杀妻骗保案事件经过原委是什么?|头条

2023-02-03 09:02:17

全球资讯:住宅70年后到期怎么算

2023-02-03 05:53:12

爱丽珊麦卡蒂出生地_爱丽珊麦卡蒂 世界球精选

2023-02-03 02:07:24