Windows下安装ScalaHadoopSpark运行环境,集成到IDEA中
一、前言
近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面!
大数据技术也是有很多: Hadoop Spark Flink
小编也只知道这些了,由于 Hadoop ,存在一定的缺陷(循环迭代式数据流处理:多
并行运行的数据可复用场景效率不行 )。所以Spark 出来了,一匹黑马,8个月的时间从加入Apache ,直接成为顶级项目!!
选择 Spark 的主要原因是:
Spark和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据
通信是基于内存,而 Hadoop 是基于磁盘。二、Spark介绍
官网地址:https://spark.apache.org/
Spark 是用于大规模数据处理的统一分析引擎 。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Spark 上的 Pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 和用于流处理的结构化流。
spark 是使用Scala 语言开发的,所以使用Scala 更好!! 三、下载安装1. Scala下载
Scala官网:https://www.scala-lang.org/
点击安装
在这里插入图片描述
下载自己需要的版本
在这里插入图片描述
点击自己需要的版本:小编这里下载的是2.12.11
点击下载Windows二进制:
在这里插入图片描述
慢的话可以使用迅雷下载! 2. 安装
安装就是下一步下一步,记住安装目录不要有空格,不然会报错的!!! 3. 测试安装
win+R 输入cmd :
输入: scala
必须要有JDK环境 哈,这个学大数据基本都有哈!!
在这里插入图片描述 4. Hadoop下载
一个小技巧:
Hadoop和Spark 版本需要一致,我们先去看看spark,他上面名字就带着和他配套的Hadoop版本!!
spark3.0对照:https://archive.apache.org/dist/spark/spark-3.0.0/
在这里插入图片描述
得出我们下载Hadoop的版本为:3.2
Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/
在这里插入图片描述 5. 解压配置环境
解压到即可使用,为了使用方便,要像jdk一样配置一下环境变量!
新建HADOOP_HOME
值为安装目录:D:softwarehadoop-3.2.1
在Path 里添加:%HADOOP_HOME%bin
cmd输入:hadoop :提示 系统找不到指定的路径。 Error: JAVA_HOME is incorrectly set.
这里先不用管,咱们只需要Hadoop的环境即可! 6. 下载Spark
Spark官网:https://spark.apache.org/
点击找到历史版本:
在这里插入图片描述
点击下载:
在这里插入图片描述 7. 解压环境配置
新建:SPARK_HOME :D:sparkspark-3.3.1-bin-hadoop3
Path 添加:%SPARK_HOME%bin 8. 测试安装
win+R 输入cmd :
输入: spark-shell
在这里插入图片描述
四、集成Idea 1. 下载插件 scala
在这里插入图片描述 2. 给项目添加Global Libraries
打开配置:
在这里插入图片描述
新增SDK
在这里插入图片描述
下载你需要的版本:小编这里是:2.12.11
在这里插入图片描述
右击项目,添加上scala :
在这里插入图片描述
3. 导入依赖 org.apache.spark spark-core_2.12 3.0.0
4. 第一个程序
在这里插入图片描述
在这里插入图片描述 object Test { def main(args: Array[String]): Unit = { println("hello") var sparkConf = new SparkConf().setMaster("local").setAppName("WordCount"); var sc = new SparkContext(sparkConf); sc.stop(); } }
5. 测试bug1 Using Spark"s default log4j profile: org/apache/spark/log4j-defaults.properties 22/10/31 16:20:35 INFO SparkContext: Running Spark version 3.0.0 22/10/31 16:20:35 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable D:softwarehadoop-3.2.1binwinutils.exe in the Hadoop binaries.
在这里插入图片描述
原因就是缺少:winutils
下载地址:https://github.com/cdarlint/winutils
在这里插入图片描述
把它发放Hadoop 的bin目录下:
在这里插入图片描述 6. 测试bug2
这个没办法复现,拔得网上的记录: Using Spark"s default log4j profile: org/apache/spark/log4j-defaults.properties 22/10/08 21:02:10 INFO SparkContext: Running Spark version 3.0.0 22/10/08 21:02:10 ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.(SparkContext.scala:380) at org.apache.spark.SparkContext.(SparkContext.scala:120) at test.wyh.wordcount.TestWordCount$.main(TestWordCount.scala:10) at test.wyh.wordcount.TestWordCount.main(TestWordCount.scala)
就是这句:A master URL must be set in your configuration
解决方案:
就是没有用到本地的地址
右击项目:
在这里插入图片描述
没有环境就添加上:
在这里插入图片描述
添加上: -Dspark.master=local
在这里插入图片描述 7. 测试完成
没有error,完美!!
在这里插入图片描述 五、总结
这样就完成了,历尽千辛万苦,终于成功。第一次结束差点劝退,发现自己对这个东西还是不懂,后面再慢慢补Scala 。先上手感受,然后再深度学习!!
如果对你有用,还请点赞关注下,支持一下一直是小编写作的动力!!
可以看下一小编的微信公众号,和网站文章首发看,欢迎关注,一起交流哈!!
钟丽缇结过3次婚,嫁小11岁老公,51岁还要拼四胎,不容易俗话说女大三,抱金砖,姐弟恋自古有之,不仅普通人里有女方比男方大的结合,明星夫妻中也有不少人是姐弟恋。也许是因为有着较大年龄差的缘故,姐弟恋的夫妻总会遇到各式的婚姻问题。洪欣比张丹
李咏女儿穿露脐装身材性感!腹部纹身太抢眼,在国外豪宅剪头发近日,主持人李咏女儿在社交平台晒出了两张在家秀身材的美照,随后妈妈哈文也第一时间转发并配上俏皮的表情,引起网友热议。可以看到,当天法图麦穿一身黑色休闲衣裤,短款上衣特意秀出小蛮腰,
孩子做事懒散拖拉的病因缺乏内驱力什么是内驱力?驱动力分为两种,一种是内驱力,另一种是外驱力。内在动力就是主观的力量,外在的力量就是环境促使我们产生的力量。内驱力的意思是一种在需要的基础上产生的内在激发或紧张状态,
42岁就糊成这样!与胡歌齐名的顶流男神霍建华,后悔了吗?5月恋情,7月结婚,年底娃落地。霍建华与林心如的婚姻光速般推进,却如同笑话般并不被众人看好。常言道婚姻是第二次人生。圈内靠婚姻逆天改命的男星不在少数,可显然,结婚当爸的霍建华并没有
为啥腾讯有那么多总监副总监,还要分组长副组长?今天遇到一个比较有意思的问题。为啥腾讯有那么多总监副总监,副总监下面还要分组长副组长,这都有什么区别,为什么有了总监还要有副总监?话题很小众,但挺有意思的,这两年国内的职场,尤其是
美国加息重压之下,中国何去何从?美联储主席用嘴加息,全球的股市和大宗商品都应声而跌。关键时刻,又传出了巴菲特老爷子减持比亚迪的消息,中国的新能源赛道也齐齐哑火。可以说除了俄罗斯在苦苦支撑之外,全球的资产面临一面倒
美元继续加息收割全球,中韩货币反应同步,猪肉储备9月已就位时隔2年,人民币汇率跌到了6。92块钱换一美元,在今年贬值了7。33,最新的离岸汇率已经破6。93,马上就到7。0的关口了。这主要和美联储上周五的强硬发言有关。前美联储理事透露,美
海外网评中国与世界有服同享来源海外网2022年中国国际服务贸易交易会首钢园区。新华社记者任超摄8月31日,2022年中国国际服务贸易交易会在北京拉开帷幕。作为中国对外开放三大展会平台之一,服贸会自创办以来不
华为Mate50系列将在9月6日发布,将配备可变光圈镜头9月6日,全新华为Mate50系列将正式登场。作为Mate系列时隔两年的代表力作,这次即将和大家见面的华为Mate50系列备受业内人士与广大消费者的期待。一直被誉为王者机型代表的M
财政部发布重磅报告2022年上半年中国财政政策执行情况报告综述2022年是我国进入全面建设社会主义现代化国家向第二个百年奋斗目标进军新征程的重要一年。上半年,面对复杂严峻的国际形势和艰巨繁重的国内改
信巴菲特还是比亚迪一方面是巴菲特减持比亚迪,另一方面是比亚迪高位回购股票,投资者该信比亚迪的看好未来发展,还是该信巴菲特的谨慎?先是投资者看到比亚迪在历史高位附近回购股份,紧接着是巴菲特减持比亚迪股