范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大数据学习SparkSQL入门简介

  在大数据学习当中,Spark框架所占的比重,还是非常高的。Hadoop和Spark基本上是大数据开发学习当中的重点内容,而Spark随着市场地位的不断提升,在学习阶段也得到更多的重视。今天的大数据学习分享,我们来对Spark当中的Spark SQL做个入门介绍。
  Spark SQL是Spark生态圈当中的重要一员,甚至 有 坊间时有传言"Spark SQL将取代Apache Hive",那么具体到底如何呢? Spark SQL简介
  事实上,Spark SQL的由来是在前代框架的基础上继承其优点而来的。这就不得不提到Shark和Hive两个组件了。
  在第一代大数据技术框架Hadoop生态圈当中,为了降低使用MapReduce的难度,Hive出现了。作为当时唯一运行在hadoop上的SQL-on-Hadoop工具,Hive工具在使用当中,MapReduce计算模式I/O消耗极大,运行效率也比较低。
  为了提升SQL-on-Hadoop的效率,于是就有了更多的工具产生,包括MapR的Drill、Cloudera的Impala、Shark。
  这其中,Shark可以说就是Spark SQL的前身。Shark基于Hive进行了改进,比如引入缓存管理,改进和优化执行器等。Shark基于Spark引擎运行,使得SQL查询的速度得到10-100倍的提升。
  后来,鉴于Shark对于hive的太多依赖,制约了Spark各个组件的相互集成,于是提出了Spark SQL项目。
  SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了Spark SQL代码。 Spark SQL特点
  1)引入新的RDD类型SchemaRDD,可以像传统数据库定义表一样来定义SchemaRDD。
  2)在应用程序中可以混合使用不同来源的数据,如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。
  3)内嵌了查询优化框架,在把SQL解析成逻辑执行计划之后,最后变成RDD的计算。
  RDD、DataFrame、DataSet的关系
  在其后的发展当中,Spark SQL仍在不断优化,比较典型的就是RDD、DataFrame、DataSet概念的发展。
  最初Spark使用RDD,但是SQL化的支持不太好;后来演变成DataFrame,类型转又不太安全;最后发展成DataSet兼容两者的优点。
  RDD
  RDD本身也叫做Resilient Distributed Dataset,即弹性分布式数据集。是Spark中最底层的数据抽象,只包含数据,不包含结构信息。需要反序列化才能知道内部存储的什么。
  DataFrame
  DataFrame除了数据本身,还记录了元数据信息,标识了每一列的字段类型和名称。相当于是RDD+Schema信息。
  DataSet
  Spark最顶层的数据抽象,不仅包含数据还包含schema信息,又能兼顾java对象格式。当DataSet中存储的是Row时,就是DataFrame。
  今天的大数据学习分享,Spark SQL入门,以上就为大家做了一个简单的介绍了。大数据学习当中,Spark是重点部分,接下来我们也会继续对Spark生态圈的各个组件去逐一做介绍。

新的小蚂蚁新的22款从这一代的小型SUV的定位来看,小蚂蚁的颜值非常的高,而且价格也很便宜。在尾灯的造型方面,小巧灵感来源于小巧的小型SUV,让人不得不再担心它的外观设计。新能源车型的外观设计,让人一亚马逊将正式推出AmazonCare远程医疗服务DoNews2月9日消息(翟继茹)据外媒报道,亚马逊宣布,将在全美范围内正式推出AmazonCare远程医疗服务。纽约旧金山迈阿密等20座城市将成为首先推出的城市。据了解,2019比亚迪汽车品牌发布全新主张科技绿色明天2月7日,比亚迪汽车品牌发布全新主张科技绿色明天。光,让科技有了方向光,让绿色成为可能光,让明天有了答案。以光出发,打造从能源的获取存储到应用的新能源整体解决方案,比亚迪是追光者,iPhone秒变刷卡机!苹果推出这项ampampquot轻触支付ampampquot功能厉害了据网易科技2月9日消息,当地时间周二苹果公司宣布将在iPhone上推出新的轻触支付(TaptoPay)功能。这项功能使得用户只需将自己的iPhone或苹果手表靠近商家的iPhone27岁创业,37岁卖公司套现300亿,如今40岁再次创业,他折腾啥?今年五月,小鹏P5作为全球首款搭载激光雷达的量产智能汽车惊艳亮相。一亮相便有人欢喜有人愁。愁的肯定是同行。最开始坐不住的是特斯拉创始人马斯克。其实早在去年,何小鹏宣布将率先推出搭载网约车还能做吗?从1415年注册各大平台,断断续续的跑网约车,也算一名老司机了,其中的酸甜苦辣只有自己清楚。刚开始,滴滴快车也可以跑,只要你愿意跑,一天流水500600还是轻松的,尤其是到年底,各羡慕IT行业高薪吗?一起来学习web前端吧前端,又称Web前端。前端即网站前台部分,运行在PC端,移动端等浏览器上展现给用户浏览的网页。前端是网页给访问网站的人看的内容和页面。是为了网页或者网页应用,使用HTML,CSS以微创新难阻下滑颓势,23岁QQ计划再起航2月10日,QQ就要23岁了。跨过23个年头,QQ早已成为国内不可磨灭的社交应用代表,但不可磨灭不代表无法超越。如今QQ形象仍屹立不倒的,只有那个可爱的企鹅手办,代表着QQ代表着腾36亿美元盗窃案背后比特币雌雄大盗ampampquot是如何落网的?2月9日,犯下史上第二大比特币盗窃案的雌雄大盗高调落网,查获赃款高达36亿美元,一时间舆论哗然,各方人士情绪相当复杂。有扬眉吐气的美国司法部,有喜上眉梢的Bitfinex交易所,有2022年互联网的几个趋势互联网的星辰大海,在2022年有了新的延伸。相比于一年前,2022可能并没有什么特别明显的大趋势。具体来说硬件平台层面移动互联网对于人们生活的渗透在逐步深入产业互联网自动驾驶,IO如何将旧电脑数据迁移到新电脑?这个方法巨简单电脑使用久了过后,就会出现卡顿死机等情况,这时候我们会想着换一台新电脑,如何把旧电脑上面大量的数据迁移到新电脑呢?来吧,看看这个方法,超简单!各位小伙伴有换电脑的经历吗?说起换电脑
c入门教程(五)dowhile循环前面讲了while,主要是控制代码的重复执行,while有个前置条件就是要满足条件才会执行,如果我们需要先执行一次再判断是否继续循环呢。这时我们需要使用do重复执行的代码while每周行业简报行业简报1。据央视12月24日报道,近日在联合国特定常规武器公约审议大会上,关于是否禁用杀手机器人的问题,虽然中国等大多数国家都认为应当禁用,但是仍有少部分国家提出了不同的意见,这ThinkBook13x引领时尚颜值,助力破冰青年启航冰雪梦冰雪虽冷,但冰雪运动却越来越热。带动三亿人参与冰雪运动的愿景已从梦想照进现实。在全民参与冰雪运动的热潮当中,众多新青年勇于突破自由拼搏,在冰雪运动中不断追求自己的梦想。今天,联想正新春送礼,这些提升幸福感的京品小家电值得买中国人一年中最重要的传统节日新春佳节将至,很多在外的游子只有这一周时间可以跟家人团聚,走亲访友的礼物从传统的送吃穿到前几年的送健康,对亲人朋友表达关爱的方式一直在变化,但是中国人的数字货币是不是未来一个大风口?数字货币,昨天相关消息有所发酵,目前数字货币在冬奥的加持下,更加是热点,今天应该会迎来一个不小的上涨。但昨天数字货币相关概念股似乎先知先觉,今日大家见机行事,特别是如果早上高开,大V神加密社区里的极端主义非常不健康金色财经报道,以太坊联合创始人VitalikButerin在接受采访时表示,加密社区里的极端主义非常不健康,他不认为以太坊生态系统之外的任何东西都是无聊和非法的,表示他对Zcash华为5G新机上架,售价2299元,40W4000万三摄,花粉有点遗憾声明原创不易,禁止搬运,违者必究!华为手机近几年已经获得不少的市场份额,但是如今因为5G以及芯片问题,华为手机的销量也受到一定的影响。对于华为来说,也是面临着一大挑战。虽然说想要突百融云创与民生银行合作,推出智慧银行体验店银盛支付技术升级,打造数字支付智能受理终端36氪大公司数字创新指南0105作者杜诗瑶,真梓编辑石亚琼36氪ToB产业组推出了新板块大公司数字化创新指南,我们会为大家汇总每日各行业大公司数字化创新业务的主要新闻。1月5日大公司数字化创新行业动态日报请查收百印度政府向小米追缴5。58亿元税款小米回应这并非最终结果21世纪经济报道记者白杨北京报道据观察网报道,当地时间1月5日,印度财政部发布声明称,印度税务情报局(DRI)已向小米科技印度公司发出通知,向该公司追缴约65。3亿卢比(约合人民币今日热点肯德基将推人造肉炸鸡茶颜悦色涨价索尼入局电动汽车1京东成为中央广播电视总台2022年春节联欢晚会独家互动合作伙伴中央广播电视总台2022年春节联欢晚会独家互动合作项目发布会在京举行,宣布京东成为总台2022年春晚独家互动合作伙伴半导体硅片企业ampampquot鑫芯半导体ampampquot完成超10亿元人民币A轮融资1月5日消息,鑫芯半导体科技有限公司(以下简称鑫芯半导体)完成超过10亿元人民币的A轮融资。本轮由信达风投资沂景资本瑞芯资本石溪资本上海宝鼎湖南华菱宁波中超航芯创投等机构共同投资,