Hadoop及Spark分布式HA运行环境搭建

　　作者：京东物流 秦彪
　　工欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境，文中不拖泥带水过多讲述基础知识，结合Hadoop和Spark最新版本，帮助大家跟着步骤一步步实践环境搭建。 1. 总体运行环境概览
　　（1） 软件包及使用工具版本介绍表：
　　技术名称或工具名称
　　版本
　　备注
　　Hadoop
　　hadoop-3.3.4.tar.gz
　　VirtualBox
　　6.0.0 r127566
　　虚拟机，推荐
　　CentOS
　　centos7.3
　　JDK
　　jdk-8u212-linux-x64.tar.gz
　　1.8.0_111
　　Zookeeper
　　zookeeper-3.6.tar.gz
　　FileZilla
　　FileZilla_3.34.0
　　文件传输工具，推荐
　　MobaXterm
　　MobaXterm_Portable_v10.9
　　SSH连接工具，推荐
　　Idea
　　IDEA COMMUNITY 2019.1.4
　　代码IDE开发工具，推荐
　　（2）环境部署与分布介绍表：
　　主机名
　　IP
　　运行的进程
　　master
　　192.168.0.20
　　QuorumPeerMain、NameNode、DataNode、ResourceManager、NodeManager、JournalNode、DFSZKFailoverController、Master
　　slave1
　　192.168.0.21
　　QuorumPeerMain、NameNode、DataNode、ResourceManager、NodeManager、JournalNode、DFSZKFailoverController、Master、Worker
　　slave2
　　192.168.0.22 QuorumPeerMain、NameNode、DataNode、JournalNode、
　　NodeManager、Worker
　　（3）进程介绍：（1表示进程存在，0表示不存在）
　　进程名
　　含义
　　master
　　slave1
　　slave2
　　QuorumPeerMain
　　ZK进程
　　1
　　1
　　1　　NameNode
　　Hadoop主节点
　　1
　　1
　　0　　DataNode
　　Hadoop数据节点
　　1
　　1
　　1　　ResourceManager
　　Yarn管理进程
　　1
　　1
　　0　　NodeManager
　　Yarn 工作进程
　　1
　　1
　　1　　JournalNode
　　NameNode同步进程
　　1
　　1
　　1　　DFSZKFailoverController
　　NameNode监控进程
　　1
　　1
　　0　　Master
　　Spark主节点
　　1
　　1
　　0　　Worker
　　Spark工作节点
　　1
　　1
　　1　　2. 系统基础环境准备
　　步骤1： 虚拟机中Linux系统安装（略）
　　VirtualBox中安装CentOS7操作系统
　　步骤2： CentOS7基础配置
　　（1） 配置主机的hostname
　　命令： vim/etc/hostname
　　（2） 配置hosts， 命令vim /etc/hosts
　　（3） 安装JDK
　　命令：
　　rpm -qa | grep java 查看是否有通过rpm方式安装的java
　　java -version 查看当前环境变量下的java 版本
　　1） filezilla上传安装包，tar -zxvf jdk-8u212-linux-x64.tar.gz 解压
　　2） bin目录的完整路径： /usr/local/jdk/jdk1.8.0_212/bin
　　3） vim /etc/profile 配置jdk环境变量
　　（4） 复制主机：
　　1）利用VirtualBox复制功能复制两台主机
　　2）命令：vi /etc/sysconfig/network-scripts/ifcfg-eth0，设置相应的网络信息
　　3）三台主机IP分别为： 192.168.0.20/21/22
　　（5） 配置三台主机ssh无密码登录（略）
　　（6） 安装zookeeper
　　1） filezilla上传安装包，zookeeper-3.4.10.tar.gz 解压
　　2） bin目录的完整路径： /usr/local/zookeeper/zookeeper-3.4.10/bin
　　3） vim /etc/profile 配置jdk环境变量
　　4） zookeeper的配置文件修改，zookeeper-3.4.10/conf/
　　5） 执行命令从master节点复制配置到其他两个节点
　　6） 每台机器zookeeper目录下新建一个data目录， data目录下新建一个myid文件，master主机存放标识值1；slave1主机标识值为2；slave3主机标识值为3
　　7） 每台机器上命令：zkServer.sh start ，启动ZK，进程名：QuorumPeerMain
　　3. Hadoop安装与部署3.1安装Hadoop
　　1）filezilla上传安装包，hadoop-3.3.4.tar.gz 解压
　　2）bin目录的完整路径： /usr/local/hadoop/hadoop-3.3.4/bin
　　3）vim /etc/profile 配置jdk环境变量
　　4） 修改配置文件共6个： hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和workers
　　文件1： hadoop-env.sh； 增加jdk环境变量
　　文件2： core-site.xml； 配置临时目录及zookeeper信息
　　文件3： hdfs-site.xml； 配置hdfs信息
　　文件4： mapred-site.xml； 配置mapreduce和dfs权限信息
　　文件5： yarn-site.xml； 配置yarn资源调度信息
　　文件6: worker文件存放当前的worker节点名，复制到每一个虚拟机中
　　3.2启动Hadoop
　　1） 使用命令： hadoop-daemon.sh start journalnode 启动journalnode 进程（每个节点执行）
　　2） 使用命令： hadoop-daemon.sh start namenode 启动namenode 进程（master、slave1节点上执行）
　　3） 使用命令：hadoop-daemon.sh start datanode 在所有节点上启动datanode 进程
　　4） 使用命令：start-yarn.sh 在master上启动yarn
　　5） 使用命令： hdfs zkfc -formatZK 在ZK上生成ha节点
　　6） 使用命令： hadoop-daemon.sh start zkfc 启动 DFSZKFailoverController进程，在master节点执行
　　a. 访问HDFS的管理页面
　　http://192.168.0.20:50070  此处192.168.0.20为namenode节点的Active节点
　　http://192.168.0.21:50070 此处192.168.0.20为namenode节点的standby节点
　　3.3 验证HDFS使用
　　使用命令：hdfs dfs -ls / 查看HDFS中文件
　　使用命令：hdfs dfs -mkdir /input 在HDFS上创建目录
　　使用命令：hdfs dfs -put ./test.txt /input 将本地文件上传到HDFS指定目录
　　使用命令：hdfs dfs -get /input/test.txt ./tmp 将HDFS文件复制到本地目录
　　使用命令：hdfs dfs -text /input/test.txt 查看HDFS上的文本文件
　　web端浏览HDFS目录
　　3.4 验证MapReduce的wordcount案例
　　（1）先通过命令将带有文本内容的test2.txt文件上传到HDFS
　　（2）对HDFS上test2.txt文件执行wordcount统计，结果放回HDFS新目录，命令：
　　hadoop jar /usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input/test2.txt /out
　　4. Spark安装与部署3.1安装Scala
　　（1）安装scala
　　上传scala压缩包解压，使用命令：
　　scala -version 查看当前环境变量下的scala 版本
　　（2）拷贝scala目录和环境变量到其他两台机器
　　使用命令：
　　scp -r /usr/local/scala root@slave1:/usr/local/
　　scp /etc/profile root@slave1:/etc/profile
　　3.2安装Spark
　　（1）上传spark压缩包解压，修改配置文件
　　命令： vim /usr/local/spark/spark-3.3.1/conf/spark-env.sh
　　（2） 新建worker目录，写入master机器名称3.3启动Spark
　　（1）在master的spark安装目录下启动spark
　　命令：
　　cd /usr/local/spark/spark-3.3.1/sbin
　　./start-all.sh
　　（2）在slave1同样目录启动master进程
　　命令：./start-master.sh
　　（3）访问spark管理页面ui
　　3.3 验证Spark的wordcount案例
　　（1）执行命令：
　　cd /usr/local/spark/spark-3.3.1/bin
　　./spark-shell --master spark://master:7077
　　（3）从HDFS读取数据执行自定义wordcount代码，结果写入HDFS，命令：
　　sc.textFile(＂hdfs://master:9000/input/test2.txt＂).flatMap(_.split(＂ ＂)).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile(＂hdfs://master:9000/spark_out＂)
　　（4）输出结果：
　　5. 后记
　　大数据技术日新月异，得益于互联网技术加持下的商业和工业模式变革。人们日益增长的对生活生产便捷性、数字化、智能化的需求，催生了数据爆炸式的增长，推动了大数据技术推陈出新。作为新时代的程序开发者，必须掌握一定的大数据基础知识才能适应时代的要求，本文只是一个引子，从自身实践的角度帮助初学者认识大数据，并基于此搭建自己属于自己的开发环境，希望大家能够在此基础上继续钻研有所建树。

一念相思起，万千情丝飞，出自内心的温柔，剪不断理还乱人是一种奇怪的动物，本想以平常之心度日，却无法释怀心中的不完美，想让自己活得通透清醒些，却又时常耿耿于怀！一念相思起，万千情丝飞碧霄，脚去不了的地方心却随时可以，人间总是多坎坷，在权利就是提款券？收受上亿财物，夫妻二人竟在同一天落马我始终认为，权利就是提款劵，任期内，我可以得到我想要的任何东西。这是杨懿文落马后，面对记者时留下的一句话，从这里我们能看出来，他对于法律的蔑视和不屑，这或许也是对于自己的一丝调侃。1936年，两名年轻女教师怒杀日本军官愿以死唤醒国人之反抗意志1927年日本内阁炮制田中奏折曰惟欲征服中国，必先征服满蒙，如欲征服世界，必先征服中国，遂制定了独占中国，称霸世界的战略构想。这是日本军国主义继中日甲午战争八国联军侵华（英俄日美法NAS下搭建一个自带导航界面的书签管理服务前言OneNav是一款开源免费的书签（导航）管理程序，使用使用PHPSQLite3开发，界面简洁，安装简单，使用方便。OneNav可帮助你你将浏览器书签集中式管理，解决跨设备跨平台低配电脑的福音，精简小巧滴win11用上windows11精简版本用上低配置老电脑的福音推荐使用因为需要所以推荐。家有一台3代i5，4G内存的老笔记本，自带的是windows8系统，是最早一代触摸屏电脑，当时也是win8S71500通过DPDP耦合器通信S71500通过DPDP耦合器通信DPDP耦合器可以实现两条PROFIBUSDP总线网络的IO通信，DP总线的通信速率可以不同，通信数据区最高可达244字节的输入和244字节的输出宦官专政是权力极端化的结果，是君权的变异和野蛮生长唐朝政治，在唐玄宗天宝时期出现了极权化的倾向。不加任何限制和制约手段，绝对的权力就会出现权力泛滥，成为独裁统治，在皇帝的名义下，无责任无道义无节制的专政乱权，鱼肉百姓，贪赃枉法，祸权臣和昏君的博弈公元前608年冬天，赵盾派赵穿率领大军讨伐崇国，使得秦晋之间本来就很恶劣的关系雪上加霜。西边的威胁尚未解除，晋国又联合宋国，再一次发兵讨伐郑国，以雪北林之战的耻辱。稍有常识的人都知万里一孤城，尽是白发兵，此人率军孤守西域近半个世纪前言提起唐朝，相信很多人都会油然而生一种爆棚的好感。唐朝自立国之后，在经济和军事等各个方面都取得了举世瞩目的成绩，被后世贴上了许多非比寻常的标签，比如开放自信和盛世等。想当初多少邻符南蛇明代海南儋州黎族农民起义的首领，到底是神还是妖魔符南蛇是明代弘治年间海南儋州黎族农民起义的首领。从方志中有关符南蛇的记录和民间的符南蛇信仰情况可以推断，符南蛇的形象经历了两种演变其一是官方统治者对符南蛇的妖魔化，其二是民间黎族人翻开殖民地的故纸堆，还真是有很多惊奇在里面今日俄罗斯（RT）3月5日报道，马克龙访问刚果（金）首都金沙萨，并与刚果（金）总统齐塞克迪举行会晤。刚果（金）总统齐塞克迪要求卢旺达必须停止对刚果（金）的公开掠夺，不要将该地区巴尔

<<<<<<－>>>>>>

古人遇到熊孩子该怎么教育？我认为，古人应该是用道德思想信用家法身体力行对孩子进行教育的。记得小时候大人管孩子都很严厉，学习的是尊重老人尊师重教孔融让梨人心向善。家族中有受人尊重的族长或人头理事（社会上到处都孩子六个月大，想给添加配方奶粉，大家推荐哪一种？一定要选一款容易吸收的配方奶粉，不然宝宝总是上火便秘不舒服，可以试试伊利金领冠的奶粉，我给我家宝宝喝的就是伊利金领冠珍护奶粉，之前的奶粉喝了总是便秘，换了这个奶粉就没有了，他里面含DNF为什么3332搭配又被分成92和83搭配，这两者有什么区别吗？92分成83拿剑魂来说是因为星之海的附加太高，会与黑魔法三件套稀释，所以换成水果3这样提升更大。再有就是护石技能强力的职业他们会把头腰鞋换成岐路，这样他们的手感，流畅度都会很好，部足球比赛历史上，有没有哪只球队最后一轮如果赢球就降级，输球反而保级的案例？我说出来大家可能会不敢相信，这是因为这种情况真的有可能出现，而且就发生在中国。2003年是中国甲a联赛的最后一年，也是改名中超的前一年，在当时中国足协为了中超联赛的到来，临时设定了为什么说本次世乒赛樊振东拿的男单冠军太容易？亚军史上最差？别说樊振东世乒赛男单冠军拿的太容易，也别说对手太差，下次如果樊振东再碰上瑞典的莫雷高德，绝对不会象这次这么轻松，同时也可以预判到，在今后的比赛中，瑞典男队将会成为国乒男队的主要竞争为什么国乒女队教练团队不给孙颖莎安排专职教练？这其实就是国家队对地方省队的认识问题，河北历来就不是乒乓强省。球员是树苗的话那各省的乒乓球水平就是土壤。乒乓强省就是北上广黑辽苏鲁。这是土壤最肥沃的省，出来的苗子基础更好发展潜力也陈梦孙颖莎和王曼昱各有特色，形成中国新女乒时代，你同意吗？她们各有千秋，同意。这个说法好，不要捧一个杀一个的，她们都是最棒的！大赛都不输外，都尽力了，都是最棒的，冠军只有一个，在我心里她们都是冠军赞赞赞赞赞赞陈梦孙颖莎和王曼昱确实形成了中家用洗碗机什么品牌好？个人感觉还是嵌入式的好一些，首先它没有独立式那么占地方，厨房本身面积可能就不大，放上一个洗碗机就少了一些储物空间，其次容量也会比台式洗碗机大一些，对于家庭洗刷需求大的更适合点，像我怎样免费在智能电视上观看原本要收费的电影？相信很多人自从家里有了智能电视之后，在家里就能观看很多优秀的电影，省去了不少去电影院的花费。然而大家都会发现，可以在盒子里看的电影要么是已经发行很久的老电影，要么就需要以各种收费的世乒赛王曼昱夺冠，但为什么感觉人气没有孙颖莎高呢？原因是莎莎比赛时尊重对手（队友），而王曼玉对待对手（队友）像对待敌人似的，表情恶狠狠的，看着恨不得要吃了对手。事情就是这样的。你为什么提这么无脑的问题？人气有用吗，可以换来实力和冠电影片段怎么截取和剪辑？这个问题这么说吧，你这是典型的视频剪辑，现在西瓜视频，抖音等短视频平台活跃着很多这类账号，但是运营相对困难并且有一定的风险，这个我后面再说，先说视频剪辑，分手机版和电脑版两种。手机