范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

数据仓库常见建模方法与建模实例演示

  1.数据仓库建模的目的?
  为什么要进行数据仓库建模?大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑 访问性能:能够快速查询所需的数据,减少数据I/O 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数 据系统中的存储成本和计算成本 使用效率:改善用户应用体验,提高使用数据的效率 数据质量:改善数据统计口径的不一致性,减少数据计算错误 的可能性,提供高质量的、一致的数据访问平台 2.常见的数据建模方法
  数据仓库本质是从数据库衍生出来的,所以数据仓库的建模也是不断衍生发展的。从最早的借鉴数据库的范式建模,到逐渐提出维度建模,Data Vault模型,Anchor模型等等,越往后建模的要求越高,越需满足3NF,4NF等。但是对于数据仓库来说,目前主流还是维度建模,会夹杂着范式建模。
  数据仓库建模方法论可分为:范式建模、维度建模、Data Vault模型、Anchor模型。
  3.常见四种建模方法的建模步骤与演示3.1.范式建模(E-R模型)
  将事物抽象为"实体"、"属性"、"关系"来表示数 据关联和事物描述;实体:Entity,关系:Relationship,这种对数据的抽象 建模通常被称为ER实体关系模型
  ER模型是数据库设计的理论基础,当前几乎所有的OLTP系统设计都采用ER模型建模的方式,且该建模方法需要满足3NF。Bill Inom提出的数仓理论,推荐采用ER关系模型进行建模,BI架构提出分层架构,数仓底层ods、dwd也多采用ER关系模型就行设计。
  但是逐渐随着企业数据的高增长,复杂化,数仓全部使用ER模型建模显得越来越不合时宜。为什么呢,因为其按部就班的步骤,三范式等,不适合现代化复杂,多变的业务组织。
  E-R模型建模的步骤(满足3NF)如下: 抽象出主体 (教师,课程) 梳理主体之间的关系 (一个老师可以教多门课,一门课可以被多个老师教) 梳理主体的属性 (教师:教师名称,性别,学历等) 画出E-R关系图
  3.2.维度建模
  维度建模,是数据仓库大师Ralph Kimball提出的,是数据仓库工程领域最流行的数仓建模经典。 维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。维度建模是面向分析的,为了提高查询性能可以增加数据冗余,反规范化的设计技术。
  Ralph Kimball提出对数据仓库维度建模,并且将数据仓库中的表划分为事实表、维度表两种类型。
  3.2.1.事实表
  在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每一个操作型事件,基本都是发生在实体之间的,伴随着这种操作事件的发生,会产生可度量的值,而这个过程就产生了一个事实表,存储了每一个可度量的事件。
  以电商行业为例:电商场景:一次购买事件,涉及主体包括客户、商品、商家,产生的可度量值 包括商品数量、金额、件数等
  ​
  事实表根据粒度的角色划分不同,可分为事务事实表、周期快照事实表、累积快照事实表。注意:这里需要值得注意的是,在事实表的设计时,一定要注意一个事实表只能有一个粒度,不能将不同粒度的事实建立在同一张事实表中。 事务事实表 ,用于承载事务数据,通常粒度比较低,它是面向事务的,其粒度是每一行对应一个事务,它是最细粒度的事实表,例如产品交易事务事实、ATM交易事务事实。 周期快照事实表 ,按照一定的时间周期间隔(每天,每月)来捕捉业务活动的执行情况,一旦装入事实表就不会再去更新,它是事务事实表的补充。用来记录有规律的、固定时间间隔的业务累计数据,通常粒度比较高,例如账户月平均余额事实表。 累积快照事实表 ,用来记录具有时间跨度的业务处理过程的整个过程的信息,每个生命周期一行,通常这类事实表比较少见。
  3.2.2.维度表
  维度,顾名思义,业务过程的发生或分析角度。比如从颜色、尺寸的角度来比较手机的外观,从cpu、内存等较比比较手机性能维。维度表一般为单一主键,在ER模型中,实体为客观存在的事物,会带有自己的 描述性属性,属性一般为文本性、描述性的,这些描述被称为维度。
  比如商品,单一主键:商品ID,属性包括产地、颜色、材质、尺寸、单价等, 但并非属性一定是文本,比如单价、尺寸,均为数值型描述性的,日常主要的维度抽象包括:时间维度表、地理区域维度表等
  案例:某电商平台,经常需要对订单进行分析,以某宝的购物订单为例,以维度建 模的方式设计该模型  涉及到事实表为订单表、订单明细表,维度包括商品维度、用户维度、商家维度、区域维 度、时间维度 商品维度:商品ID、商品名称、商品种类、单价、产地等 用户维度:用户ID、姓名、性别、年龄、常住地、职业、学历等 时间维度:日期ID、日期、周几、上/中/下旬、是否周末、是否假期等
  维度分为:
  (1) 退化维度 (DegenerateDimension)
  在维度类型中,有一种重要的维度称作为退化维度,亦维度退化一说。这种维度指的是直接把一些简单的维度放在事实表中。退化维度是维度建模领域中的一个非常重要的概念,它对理解维度建模有着非常重要的作用,退化维度一般在分析中可以用来做分组使用。
  (2) 缓慢变化维 (Slowly Changing Dimensions)
  维度的属性并不是始终不变的,它会随着时间的流逝发生缓慢的变化,这种随时间发生变化的维度我们一般称之为缓慢变化维(SCD)。比如员工表中的部门维度,员工的所在部门有可能两年后调整一次。
  3.2.3.维度建模模型的分类
  维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。
  (1) 星型模型
  星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。
  ​
  (2) 雪花模型  雪花模型,在星型模型的基础上,维度表上又关联了其他维度表。这种模型维护成本高,性能方面也较差,所以一般不建议使用。尤其是基于hadoop体系构建数仓,减少join就是减少shuffle,性能差距会很大。
  尖叫提示:所以由上可以看出 星型模型和雪花模型主要区别就是对维度表的拆分 对于雪花模型,维度表的涉及更加规范,一般符合3NF,有效降低数据冗余,维度表之间不会相互关联,但是 而星型模型,一般采用降维的操作,反规范化,不符合3NF,利用冗余来避免模型过于复杂,提高易用性和分析效率,效率相对较高。
  (3) 星座模型  星座模型,是对星型模型的扩展延伸,多张事实表共享维度表。数仓模型建设后期,大部分维度建模都是星座模型。
  3.2.4. 维度建模步骤  维度建模步骤:选择业务过程->声明粒度->确定维度->确定事实。旨在重点解决数据粒度、维度设计和事实表设计问题。
  声明粒度,为业务最小活动单元或不同维度组合。以共同粒度从多个组织业务过程合并度量的事实表称为合并事实表,需要注意的是,来自多个业务过程的事实合并到合并事实表时,它们必须具有同样等级的粒度。 3.3 DataVault模型
  Data Vault是Dan Linstedt发起创建的一种模型方法论,Data Vault是在ER模型的基础上衍生而来,模型设计的初衷是有效的组织基础数据层,使之易扩展、灵活的应对业务的变化,同时强调历史性、可追溯性和原子性,不要求对数据进行过度的一致性处理。同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。 Data Vault模型是一种中心辐射式模型,其设计重点围绕着业务键的集成模式。这些业务键是存储在多个系统中的、针对各种信息的键,用 于定位和唯一标识记录或数据  Data Vault模型包含三种基本结构  : 中心表-Hub :唯一业务键的列表,唯一标识企业实际业务,企业的业务主体集合 链接表-Link: 表示中心表之间的关系,通过链接表串联整个企业的业务关联关系 卫星表- Satellite: 历史的描述性数据,数据仓库中数据的真正载体
  3.3.1 中心表-Hub
  ​
  3.3.2 链接表-Link
  ​
  3.3.3 卫星表- Satellite
  ​
  3.3.4 Data Vault模型​​​​​​建模流程 梳理所有主要实体 将有入边的实体定义为中心表 将没有入边切仅有一个出边的表定义为中心表 源苦衷没有入边且有两条或以上出边的表定义为连接表 将外键关系定义为链接表
  ​
  ​  尖叫提示:Hub想像成人体的骨架,那么Link就是连接骨架的韧带组织, 而satelite就是骨架上的血肉。 Data Vault是对ER模型更近一步的规范化,由于对数据的拆解和更偏向于基础数据组织,在处理分析类场景时相对复杂, 适合数仓低层构建,目前实际应用场景较少 3.4 Anchor模型Anchor是对Data Vault模型做了更近一步的规范会处理,初衷是为了 设计高度可扩展的模型,核心思想是所有的扩张只添加而不修改,于 是设计出的模型基本变成了k-v结构的模型,模型范式达到了6NF 由于过度规范化,使用中牵涉到太多的join操作,目前木有实际案例,仅作了解 4.四种模型总结
  以上为四种基本的建模方法, 当前主流建模方法为:ER模型、维度模型 ER模型常用于OLTP数据库建模,应用到构建数仓时更偏重数据整合, 站在企业整体考虑,将各个系统的数据按相似性一致性、合并处理,为 数据分析、决策服务,但并不便于直接用来支持分析。 缺陷:需要全面梳理企业所有的业务和数据流,周期长,人员要求高。 维度建模是面向分析场景而生,针对分析场景构建数仓模型;重点关注快 速、灵活的解决分析需求,同时能够提供大规模数据的快速响应性能。针对性 强,主要应用于数据仓库构建和OLAP引擎低层数据模型。 优点:不需要完整的梳理企业业务流程和数据,实施周期根据主题边界而定,容易快速实现demo 数仓模型的选择是灵活的,不局限于某一种模型方法 数仓模型的设计也是灵活的,以实际需求场景为导向 模型设计要兼顾灵活性、可扩展,而对终端用户透明性 模型设计要考虑技术可靠性和实现成本 5.常用建模工具
  建模工具,一般企业以Erwin、powerdesigner、visio,甚至Excel等为主。也有些企业自行研发工具,或使用阿里等成熟套装组件产品。

山东大学,中山大学,吉林大学,东北师范大学,哈尔滨工业大学,南京大学哪个好?首先,东北师范大学为211学校,与其他几个学校没有可比性。另外哈工大偏重理工类,所以文科专业比较弱,而南京大学无论文理又略高一筹。剩下的中山吉大山大各有优势学科,总体来说中山占据地山东青岛有多少好大学,排名大概是什么样的?以下是青岛各高校排名和学校基本情况一部署高校(211)1中国海洋大学(在青岛繁华市区,前身为国立山东大学青岛海洋大学等。在校生约2万人)2中国石油大学(华东,在青岛开发区,2011男士上身穿短袖衬衫时,该不该塞进裤子里?短袖衬衫,可以说对于男士来讲是再平常不过的搭配单品了。对于男士上身穿短袖衬衫时,该不该塞进裤子里这个问题,不能简单的说短袖衬衫应该塞进裤子里,或者不该塞进裤子里。搭配风格得首先搞清为什么老年人爱讲历史,说过去?历史是经验,历史是教训,历史是经历,历史是精华,历史是文明,历史是传承,忘记历史等于忘记一切,只有传承历史,才能更好的现实社会服务,创新,努力,拚搏,奋斗,更上一层楼历史的经验值得用百词斩记单词效果好吗?感谢邀请!为了各种英语考试,例如,四级,六级等等。我们不止一次下定决心开始背单词。于是我们下载了百词斩,扇贝单词。刚开始的几天,我们信誓旦旦,相信自己会坚持到底。但是,再坚持十天,油性耳道会影响戴助听器的效果吗?油性耳朵可以佩戴助听器,但是需要经常清洁耳道。因为油性的耵聍非常容易堵塞出声孔,助听器需要防潮。定制机和受话器外置的助听器受到的影响最大,耳背式的助听器会稍好一些,因为定制机和受话安徽省教师工资高吗?一个月有多少?我对安徽省各地教师的工资待遇有所了解,那么下面我就给大家详细分享一下安徽省各地教师的工资待遇怎么样?安徽省教师的工资待遇高不高,一个月大概有多少?安徽省各地区教师待遇差异教师的身份本人近期买第一辆车,在速腾和卡罗拉之间犹豫。是速腾1。4T,还是卡罗拉1。2T?第一辆车推荐卡罗拉速腾国外叫捷达,国内市场火爆,虽然被同门兄弟车型朗逸抢了风头,也常在销量前十榜单,相比卡罗拉,优势还是蛮多的,第一,大众焊接组装工艺设备比丰田先进些,车身线条硬朗做酸汤时,我放了很多醋,为什么就是不酸呢?调味是一门高深的学问,毫不夸张。就拿酸汤为例我为您解答,但愿能够真正的帮到你,说高深的意思是世面上的醋其品类不下二三十十中。红醋陈醋香醋白醋一级二级三级,纯酿,头道太多了,这些醋口在初中校门口卖什么吃的比较好,在哪里可以学?奶茶烧烤炸串蛋糕店。但还是建议做正餐比较好,比如面条早餐早点,炒饭,盖饭这样学生能解决一日三餐的。可以在专业的烹饪学校或者厨师学校学习,不论面条面点中餐,还是小吃奶茶冒菜烧烤都能学姐姐送了台macbookpro给我,怎样才可以发挥其最大性能,学点啥技能?首先,可以说MacBookpro是一款非常非常禁得住用的产品,我高三毕业的时候获得了一台2013款,一直使用到了现在。1。实用性如果你刚刚获得了一部mac,首先就是先适应它的系统,
这个冬季来哈尔滨向快乐出发!快乐再出发第二季哥哥们来到了中国最北的富饶之地哈尔滨第二季以哈尔滨为新的起点快乐相遇第一集哥哥们来到了五常市在这里他们遇见了美景,品尝了美食感受了这座城的魅力体会了冰城的寒冷和黑土一台跨年晚会,娱乐圈的人走茶凉,在快乐家族身上体现得淋漓尽致前言还是同样的湖南卫视跨年晚会,锣鼓喧天,热闹非凡,收视率依然稳居卫视前列。可正是这个喧闹的跨年夜,却让很多网友在评论区感慨娱乐圈的人走茶凉与物是人非。大家为什么会这么想?01hr央视主持人郑丽赵普妻子是谣言,37岁低调做妈妈,丈夫是普通人2020年,48岁的郑丽大器晚成,熬了十八年终于进入新闻联播。但还未等她坐稳位置,便被深扒个人隐私,一则赵普妻子传闻,让她成为借势上位关系户,口碑一落千丈,知名度却意外暴增。郑丽拖阿里巴巴同系的蚂蚁集团,子公司获准增加资本,是监管结束讯号吗2020年11月3日,蚂蚁集团IPO被紧急叫停,并被列入国家重点监管对象,而这在金融市场上引起轩然大波。此后阿里集团被有关部门约谈,阿里巴巴的股价持续下跌,集团整体面临高额罚款。然熊猫血妈妈生孩子会被医院嫌弃,你知道么?我的生活也是头条头条创作挑战赛你确定这是你的第一个孩子么?大夫重复了至少三遍。最后得到确定且肯定的答案后才勉强收了我。这才是刚开始费劲的还在后面我,一位RH阴性A型血妈妈,生孩子的孩子,对不起,爸爸真不知道该给你怎么解释(晚上吃饭时孩子忽然问我)孩子爸爸,今年过年回老家农村可以放炮吗?爸爸不可以孩子为什么啊,好几年都没有放炮了。(孩子很沮丧)爸爸因为违法,而且污染环境因为要守护蓝天,还有安全隐患,此E3非彼E3五万年一见彗星本月到访地球一颗去年才刚刚被发现的彗星将在本月晚些时候接近地球,可能会很快就能通过肉眼观测到它。专家表示,这颗彗星至少在5万年内不太可能返回地球轨道,因此千万不要错过这个观测机会。这颗彗星名为接裸戏的张子枫,不香艳,只惊悚最近,归来的女儿很受欢迎,张子枫扮演了一个来历不明的女儿。一丝不挂,绑架了我弟弟,送到精神病院的电床上。假与真,真与假。在一群老戏骨里,她也牵住了大家的心。有人说国民女儿回来了。然元气森林又推新的瓶装水,瞄准巨头还没布局的调味水记者吴容编辑牙韩翔继推出有矿后,元气森林在瓶装水赛道上持续加码。元气森林将推出名为森林的水的弱碱性调味天然水饮品。虽未正式上市,但有部分经销商早前已收到该产品的样品。据经销商的描述寻医重症肺炎双胎孕妇突发急性胎儿窘迫,一场救援紧急展开尤主任,外院马上会转诊一名双胎妊娠31周合并重症肺炎的病人过来。1月3日,湖南省人民医院产科主任尤胜接到转诊电话及病人相关病历资料后,立即组织科室人员回顾病史。这名39岁的患者为辅48岁TVB艺人晒国外生活照,自曝已携妻移民加拿大,称向往了26年现年48岁的前TVB艺人邓健泓与艺人石咏莉在2017年结婚,2022年底两人迎来结婚木婚5周年的纪念日。邓健泓在社交平台上晒出了与妻子在异国他乡的雪地上自拍的照片,不知情的人还以为