范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

湖仓一体数据仓库与数据湖的左右互搏术

  《射雕英雄传》当中,"老顽童"周伯通被禁闭在桃花岛的地洞里,创出了一门武功叫左右互搏术。这门左右两手可以同时使用不同招式的武学,对于人物本身的战斗力加成几乎是翻倍的。
  左右互搏的难点其实并不在于一心二用,而是左右两支手上的两套不同的武功,可以融会贯通,相辅相成,与人对敌时,就像是面对两个配合默契的武林高手。
  那么,如果将左右互搏这项武功,平移到大数据平台上会发生何种有趣的变化?
  数据湖是伴随开源大数据技术栈的发展而来"外门功夫",进入门槛低,容易实现自建,但后期的成长较难;而数据仓库是诞生在数据库时代的方法论,更像是一门"内功",虽然入门困难,但成长性更高。
  过去,这两种不同流派,代表了企业发展在不同阶段的选择,但随着企业不断的变大,企业的大数据处理需求既要入门又要成长,这就需要一种"左右互搏"的武学,能够将两大流派融汇,做到内外兼修,化身为一代武林高手。
  在9月18日的2020云栖大会上,阿里云正式发布了这门新的武学,大数据平台的下一代架构——"湖仓一体"。 传统门派,与新兴门派
  诞生于20 世纪 90 年代的数据仓库,是武林中典型的传统门派。
  按照全球数据仓库之父 W.H.Inmon对数据仓库的描述,它的主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
  从价值角度,数据仓库能够实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持,这是它的魅力所在。但数据仓库也有它的缺点,起步门槛高(强建模),对开发人员要求高,非结构化数据处理能力较弱。
  而从大数据的角度,直到大数据技术诞生,数据仓库才得以普惠,成为一种大数据系统的架构。数据仓库提供了基于数据抽象的统一存储,强调数据的清洗、建模和管理,以极高的数据存储、计算能力,完善而精细的数据管理能力,是建设企业级数据中台的上佳选择。阿里巴巴的中台之所以出名,也是得益于它数据仓库的早期建设(飞天系统)。
  而数据湖的概念,是如今已经被HDS收购的Pentaho公司的前任CTOJames Dixon提出来的,它代表了一种新的数据存储理念。同时,是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。Hadoop则是最常用的部署数据湖的技术。
  相比于数据仓库的传统门派严谨的"门规"和条件。数据湖的要求,就要简单很多,通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据,换言之,包含了结构化数据,半结构化数据,和非结构化数据。
  很明显,这种对数据类型的兼容并包,能给企业很快带来多种能力,如数据湖结合数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型等等。与数据仓库不同,数据湖又是江湖上的新兴门派。 鱼与熊掌,老问题的新解读
  客观地说,数据仓库与数据湖之间,的确有很多明显的差异之处。
  比如在储存方面上,数据湖中数据为非结构化的,所有数据都保持原始形式,存储所有数据,并且仅在分析时再进行转换,而数据仓库则是数据通常从事务系统中提取。再比如,数据湖的目的是深入分析的非结构化数据,而数据仓库则非常适用于月度报告等操作用途,因为它具有高度结构化等等。
  因为分属不同的门派,代表了不同的方向和能力,所以数据仓库和数据湖两者之间,起初是井水不犯河水。但武学之道,贵在融合,江湖中的有能之士,亦在努力推动两者的结合。
  在数据湖阵营,早在2011年,Hadoop开源体系公司Hortonworks开始了Apache Atlas和Ranger两个开源项目的开发,分别对应数据追踪和数据权限安全两个数仓核心能力。这可以看做是数据湖向数据仓库做出的融合尝试。
  遗憾的是,这两个开源项目的活跃度一直不高,直到2017年才完成孵化,且发布周期较慢,相较同时期的Spark、Flink等开源项目完全不可同日而语,几乎被人淡忘。
  在数据仓库阵营,2017年AWS Redshift推出RedshiftSpectrum,支持Redsift数仓用户访问S3数据湖的数据。开始在AWS产品体系内,尝试打通数据仓库到数据湖统一存储的边界;同时,2018年阿里云MaxCompute推出外表能力,支持访问包括OSS/OTS/RDS数据库在内的多种外部存储。实现阿里云产品体系内数仓产品到数据湖统一存储的打通。
  这两次数据仓库与数据湖融合做的尝试,但因为这类数仓到数据湖的打通仍然停留在各自的技术体系内,而且是从存储层进行打通,上层元数据仍然要在数仓中人工重建,易用性较差,只适用于低频查询。所以,也没有在业界引起广泛的关注。
  可是,如果从企业成长的角度看,这两者之间又确实存在融合的必要性。
  当一个企业在业务初创的时候,数据的规模比较小,它的数据的形态在迅速的试错和变化,灵活性是这个时候的重点,这时候使用数据湖就可以快速的搭建自己的技术平台来支撑业务,比如说深度学习,数据库可以在支持丰富的数据种类的基础上面实现非常低的成本跟非常高的灵活性,可以满足企业在这个阶段快速发展和对数据存储和计算的一个需求。但随着业务规模逐渐增大,数据的形态就会变得更加成熟。这个时候降本增效就会变成企业越来越高的一个需求。他会开始逐步的选择数据仓库,来更好的做数据的优化,数据的治理和数据的各种应用。
  面对鱼与熊掌的问题,企业要选择去取舍,还是更希望同时获得这两种能力的融合?答案不言而喻。
  按照阿里巴巴集团副总裁、阿里云计算平台负责人贾扬清的观点,"用户关注的是数据应用,是数据中台,是数据上的人工智能。为什么要来去选择,是用铲子,还是铁锹这样的细节问题?所以‘湖仓一体’,就是可以让用户免去选择工具的痛苦,获得两者融合的价值。" 湖仓一体,双手融汇
  "湖仓一体",其实并不是一个新鲜的概念,它的成功必然建立在实际业务压力的环境之下,必须经过拿得出手的业务实践。
  第一个吃螃蟹的武林高手,名字叫做"微博"。
  贾扬清说,"此前微博拥有Hadoop数据湖和阿里云大数据及AI两套异构的大数据平台,且两套平台在集群层面完全割裂,数据和计算无法自由流动。所以,微博和阿里云共同,向湖仓一体化的AI计算中台的方向发起了努力。"
  2020年1月9日,在微博首次在测试当中完成了湖和仓的数据和元数据打通。到2020年4月,湖仓一体在微博生产系统正式应用,PAI深度学习和机器学习训练任务以及各种数据处理任务通过湖仓一体技术,实现在MaxCompute和EMR之间的无缝调度,真正在两套体系之上实现了统一的元数据管理和数据开发体验。
  从此,微博摆脱繁重的数据搬迁,极大的提升平台化服务能力,使微博数据湖中的数据和算法工程师能够轻松无缝的借助阿里巴巴成熟的超大规模计算能力和算法赋能业务提效,并且实现MaxCompute云数仓加数据湖的闭环,极大的提升AI类作业的效率,将数据湖的灵活性和云数仓的性能成本,云原生优势充分结合,形成互补,从而达到成本节约。
  在这个故事里,阿里云就像是习得了左右互搏术的周伯通,而微博则成为了将这门武学发扬光大的故事主角郭靖。
  贾扬清表示,MaxCompute湖仓一体方案打破了数据湖与数据仓库割裂的体系,在架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合,从而构建数据湖和数据仓库融合的湖仓一体的全新计算平台。MaxCompute湖仓一体方案不仅可广泛用于支持超大规模的机器学习和深度学习,还能帮助企业高效提升自身大数据能力,实现敏捷运营,降本增效。
  与此同时,这种能力的获取几乎是"无感"的,"湖仓一体的意义,是说企业不需要看见湖和仓,数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。"贾扬清说。
  很明显,这项将数据湖和数据仓库两种能力融会贯通的"左右互搏术",还会服务于更多的企业,并帮助他们更好地实现数据价值的变现。

美国的钱在中国叫美金,人民币在国外叫什么?长知识了一直以来,人没有钱是活不下去的。货币不仅是财富的象征,也是市场商品流通的重要媒介。看到每个国家使用不同的货币,很多人心里都有一个疑问,就是美国的钱在中国,叫美元,那么中国的钱在国外建业股份(603948。SH)短期股价涨幅较大主要产品价格出现一定波动智通财经APP讯,建业股份(603948。SH)公告,公司股票于2021年9月14日9月15日9月16日连续三个交易日内收盘价格涨幅偏离值累计达到20以上,属于股票交易异常波动情形银之杰(300085。SZ)拟开展数字人民币发行流通和场景应用领域的技术研究和服务智通财经APP讯,银之杰(300085。SZ)发布公告,公司拟对外投资设立全资子公司上海数杰科技有限公司(暂定名,以工商部门核定为准,以下简称数杰科技),注册资本1000万元,以独任何大灾大难,都是对中华儿女品性的一次考验与提升近百年河南受水灾之深的有两次,一次是人为的,上个世纪三十年代蒋介石为了阻止日军侵略步伐炸开了黄河之堤,让民不聊生。另一次就是这次天灾。而这次天灾中,我们不仅看到了国家之团结强大,更司马南怎么也要挨批斗司马南这老头过个生日就开始嘚瑟去主持了青年音乐节,唱了国际歌就不知道自己姓什么了,视频更新的白嫖都肝不过来,隔壁王奶奶骂他飘是一点没说错,不然怎么这么远古的问题又被人拿出来骂呢?本你在物理学科普书中学到过最令人震惊的知识是怎样的?最震惊的应该就是广义相对论认为的时空的几何性。我们所谓的光沿直线传播,或者受引力偏移,不过是在引力场中的最短路径移动,所有的运动都在遵循能量最低路径。几何不再是那个几何,时空也不是中国邮政宣布全面提速全国主要城市可享邮件次日达甚至次晨达中国邮政正式启动全面提速,主要内容涵盖了寄递全面提速全网邮路优化航空高铁运力支撑和自有干线车辆的规模不断扩大。此次大提速共覆盖全国1000多个城市,将在全国多省市地区将实现运邮次日怎么看待张伯礼院士对废医验药的看法?我觉得中医的存在显示了人类科学一个非常无奈的现实我们在上个世纪发现了量子力学,但是一百年过去了,我们对于量子的掌握就好像牛顿力学里的人终于能批量制作可靠的弓箭了。至于送人类上天?那如何看待B站up主在旅顺博物馆门口公开跳宅舞后删视频道歉我就担心有人说猎巫,某剑就如约而至,这事在技术层面上无解,本来这个世界就没啥黑白分明的事,评价一个人也不可能只取某个点而是要看她一个大时间段内的行为。归根结底还是因为我们是文化弱势如何看待奇葩说圆桌派十三邀这类输出观点的节目首先,奇葩说要单独拿出来,他和圆桌派与十三邀并不一样。奇葩说本身是一种辩论,把原本的辩论赛用综艺的形式改造来增加娱乐性,但是他的内核没有改变辩论是不需要对观点负责的。所有的辩题都是如何看待ampampquot高校LGBT未命名公众号ampampquot事件?我之前苦口婆心的劝,对于天然少数群体,要想获得认同,获得主流社会接纳首先不要想自己应该要求什么权利什么待遇,不是说不能提要求而是你要给别人一个原因倾听你的理由吧。所以对于这类天然少
实验室里如何产生纠缠光子和单光子,如何检测单光子?量子纠缠是量子信息领域的一个很基础的物理现象和实用技术。本文力求用通俗语言简要地解释量子纠缠是咋回事,以及如何产生纠缠光子等问题。什么是纠缠光子?首先,量子纠缠中的量子可指任何微观新研究揭示恒星内的隐秘真相恒星模拟。天文学家通常将大质量恒星称作宇宙化学工厂,它们在壮丽的超新星爆炸中迎来生命的终结,造就了大量元素。对元素核在巨恒星中的混合方式展开研究,对于理解它们在爆炸前的演化有重要影恭喜祝融号落地火星2020年7月23日,中国首次火星探测任务天问一号火星探测器成功发射入轨。2021年2月10日成功被火星捕获,顺利进入环火轨道。已经通过多次成像完成预选着陆区高清影像数据获取,后续我国第一个火星基地你知道在哪吗?这里被称作地球上最像火星地方赤红色的岩石土壤,寸草不生干涸龟裂的地表,第一眼看上去,也许你会认为这是在火星的表面,其实,这是被称作地球上最像火星的地方,我国青海省的雅丹地貌群。青海雅丹地貌雅丹地貌主要是指我国军工天问一号成功着陆火星,科改示范企业名单公布今天重点聊聊天问一号近期关于军工的消息面接连不断15月15日,我国天问一号着陆器确认成功降落火星,着陆地点位于火星北半球的乌托邦平原,着陆器上搭载的是我国祝融号首辆火星车,这是我国我们距离移民火星还有多远?高山人2021。5。17随着我国天卫1号火星探测器成功着陆,火星移民也成为八卦热点,那么火星移民究竟有没有可能?大概还需要多少年?存有什么难度呢?现就这些问题,根据已有的相关资料了天问一号着陆火星,虹猫蓝兔到过这里不忘初心,筑梦未来火星,中国来啦!天问一号成功着陆。(图片来源于人民日报)据国家航天局消息,科研团队根据祝融号火星车发回遥测信号确认,5月15日,天问一号着陆巡视器成功着陆于火星乌多国航天机构祝贺天问一号成功着陆火星,外交部由衷感谢来源澎湃新闻5月17日,外交部发言人赵立坚主持例行记者会。有记者提问,中国首次火星探测任务天问一号探测器15日成功着陆火星,美国国家航空航天局副局长发推特表示祝贺,称期待此次任务为开启超高能伽马天文学时代!西南交大20多名师生参与,发现最高能量光子红星新闻记者从中国科学院高能物理研究所获悉,位于四川稻城县的国家重大科技基础设施高海拔宇宙线观测站(LHAASO)在银河系内发现大量超高能宇宙加速器,并记录到最高1。4拍电子伏伽马火星与地球有时差吗?按照地球上定义的时间尺度,火星上的一个平太阳日为24小时39分35。244秒,地球的平太阳日则是24小时,两者之间差距39分35秒多在更反映自转周期的恒星日方面,火星一个恒星日为2我不听就不听NASA旅行者1号2号终于摆脱太阳系了。自由啦呵呵我不听就是不听好不容易掏逃出太阳系获得真正自由哈哈,终于摆脱地球愚蠢的自私的人的控制了咦全新的感觉我飘我飘飘呀飘谁也没有确定人类发射的各种太空仪器竟然这么快就与人类摆脱瓜葛,竟然还