大数据入门SparkRDD基础概念
在Spark框架的核心部分,SparkCore作为平台基础通用执行引擎,重要性自是不必多说。而在SparkCore当中,RDD作为SparkCore的核心抽象,是需要重点搞懂的概念。今天的大数据入门分享,我们就来讲讲Spark RDD入门基础。
Spark框架的核心是SparkCore,而在更深一个层面上,SparkCore的核心就是RDD。SparkCore建立在统一的抽象RDD之上,这使得Spark的各个组件可以随意集成,可以在同一个应用程序中使用不同的组件以完成复杂的大数据处理任务。 RDD设计初衷
RDD,全称Resilient Distributed Datasets,在设计之初是为了解决计算框架对不同应用场景处理效率不高的问题,比如说迭代式算法和交互式数据挖掘。在这两种应用场景中,通过将数据保存在内存中,可以将性能提高到几个数量级。
对于迭代式算法而言,比如PageRank、K-means聚类、逻辑回归等,常常需要重用中间结果;而交互式数据挖掘,常常需要在同一份数据集上运行多个即席查询。
大部分的计算框架(比如Hadoop),使用中间计算结果的方式是将其写入到一个外部存储设备(比如HDFS),这会增加额外的负载(数据复制、磁盘IO和序列化),由此会增加应用的执行时间。
RDD可以有效地支持多数应用中的数据重用,它是一种容错的、并行的数据结构,可以让用户显性地将中间结果持久化到内存中,并且可以通过分区来优化数据的存放,另外,RDD支持丰富的算子操作,用户可以很容易地使用这些算子对RDD进行操作。 RDD基本概念
本质上来说,一个RDD就是一个分布式对象集合,一个只读的、分区的记录集合。每个RDD可以分成多个分区,不同的分区保存在不同的集群节点上。
RDD是一种高度受限的共享内存模型,即RDD是只读的分区记录集合,所以也就不能对其进行修改。只能通过两种方式创建RDD,一种是基于物理存储的数据创建RDD,另一种是通过在其他RDD上作用转换操作(transformation,比如map、filter、join等)得到新的RDD。
RDD不需要被物化,它通过血缘关系(lineage)来确定其是从RDD计算得来的。另外,用户可以控制RDD的持久化和分区,用户可以将需要被重用的RDD进行持久化操作(比如内存、或者磁盘)以提高计算效率。也可以按照记录的key将RDD的元素分布在不同的机器上,比如在对两个数据集进行JOIN操作时,可以确保以相同的方式进行hash分区。
RDD主要特点
①基于内存
RDD是位于内存中的对象集合。RDD可以存储在内存、磁盘或者内存加磁盘中,但是,Spark之所以速度快,是基于这样一个事实:数据存储在内存中,并且每个算子不会从磁盘上提取数据。
②分区
分区是对逻辑数据集划分成不同的独立部分,分区是分布式系统性能优化的一种技术手段,可以减少网络流量传输,将相同的key的元素分布在相同的分区中可以减少shuffle带来的影响。RDD被分成了多个分区,这些分区分布在集群中的不同节点。
③强类型
RDD中的数据是强类型的,当创建RDD的时候,所有的元素都是相同的类型,该类型依赖于数据集的数据类型。
④懒加载
Spark的转换操作是懒加载模式,这就意味着只有在执行了action(比如count、collect等)操作之后,才会去执行一些列的算子操作。
⑤不可修改
RDD一旦被创建,就不能被修改。只能从一个RDD转换成另外一个RDD。
⑥并行化
RDD是可以被并行操作的,由于RDD是分区的,每个分区分布在不同的机器上,所以每个分区可以被并行操作。
⑦持久化
由于RDD是懒加载的,只有action操作才会导致RDD的转换操作被执行,进而创建出相对应的RDD。对于一些被重复使用的RDD,可以对其进行持久化操作(比如将其保存在内存或磁盘中,Spark支持多种持久化策略),从而提高计算效率。
关于大数据入门,Spark RDD入门基础,以上就为大家做了简单的介绍了。RDD在Spark的学习当中非常关键,要彻底地搞懂吃透,才能更好地支持后续的其他组件学习。
儿童彩妆,财富新密码?作者小铁锹原创财经小锄头(chutou0325)还记得小时候用凤仙花的花瓣,小心翼翼包裹着指甲,希望指甲被染成漂亮的红色么?现在的孩子已经不再需要去找凤仙花了,他们很多人已经拥有了
虾米关停,字节开张?作者阿鲲来源财经小锄头(IDchutou0325)(来源字节跳动)据Tech星球消息,字节跳动在今年已成立了音乐事业部,这表明字节跳动向流媒体音乐领域更进一步。在今年2月5日,流媒
哈啰幸存者,心比天高作者史蒂芬原创财经小锄头(chutou0325)2017年9月,戴威的ofo上线了微信小程序。蚂蚁金服高层知道后很生气,阿里随即派了专人从杭州飞到北京,告诉戴威马上将ofo的微信小
看清本质法国电信挺华为背后的小啾啾华为在5G专利数量质量上优势还是很明显的,而且在通信领域深耕多年,厘米波5G也是当下来讲普及的综合效果更好的方案,但这几年,以老美为首的小圈子对中国高科企业围追堵截,小弟们更是背后
5199元的精致极品iPhone13mini网友入手几天,4600元忍痛出手精致极品iPhone13mini网友入手几天,为何忍痛出手这位网友前几天刚入手的iPhone13mini,忍不住和大家分享一下体验,主要问题还是在实用性方面已不符合目前智能手机的水
去海南免税店买iPhone13能否省下一张机票,真相如下随着国内疫情控制稳定,出门旅行的人数也在增长,例如国庆假期就有很多朋友出行,其中极富东南亚旅游其情调的海南岛就成为不少人的首选,离岛免税店当然对游客的魅力也很大,海南自贸港在海南目
年轻人最喜爱的idol产品力如何?华为nova9系列正式发布9月23日,华为nova9系列正式发布。nova9系列在产品设计方面,依旧表现出了华为的实力和风采,密集的设计工艺突破黑科技发布独家创新的功能等,都让人看到了一款真正的旗舰的影子。
年轻人的酒文化,度数越来越低作者秦沁原创深眸财经(chutou0325)年轻人到底爱不爱喝酒?前段时间阿里事件爆发,恶臭的酒桌文化成为众矢之的,年轻人就职场喝酒表达自己的看法,纷纷表示已经将饮酒二字拉入黑名单
让年轻人睡个好觉,喜临门成Z世代新宠作者易牟原创深眸财经(chutou0325)近日,喜临门发布2021年半年度财报。报告显示,2021年上半年喜临门的营收达31。07亿元,较上年同比增长57。25归母净利润达到2。
二手奢侈品的刀,割向了年轻人的钱包作者易牟原创深眸财经(chutou0325)最近热播剧我在他乡挺好的第一集,就讲到了主角之一的许言逛中古店,准备用攒下的工资给好朋友晶晶买一个二手的Gucci,结尾许言又一次光顾中
股价最高的自动驾驶企业入局造车,锦上添花还是浪费时间?据可靠消息称,自动驾驶的巨头小马智行有加入造车的赛道的种种痕迹。作为国内估值最高的自动驾驶企业,小马智行已经在中国北京广州上海及美国硅谷均建有研发中心并进行测试,在中国广州以及美国