大数据项目之电商数仓(总结)(一)系统业务数据仓库
第1章 电商业务与数据结构简介
1.1 电商业务流程
1.2 电商常识(SKU、SPU) SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。
比如,咱们购买一台iPhoneX手机,iPhoneX手机就是一个SPU,但是你购买的时候,不可能是以iPhoneX手机为单位买的,商家也不可能以iPhoneX为单位记录库存SKU。必须要以什么颜色什么版本的iPhoneX为单位。比如,你购买的是一台银色、128G内存的、支持联通网络的iPhoneX,商家也会以这个单位来记录库存数。那这个更细致的单位就叫库存单元(SKU)。
那SPU又是干什么的呢?
SPU表示一类商品。好处就是:可以共用商品图片,海报、销售属性等。
1.3 电商表结构
1.3.1 订单表(order_info)
1.3.2 订单详情表(order_detail)
1.3.3 商品表
1.3.4 用户表
1.3.5 商品一级分类表
1.3.6 商品二级分类表
1.3.7 商品三级分类表
1.3.8 支付流水表
第2章 数仓理论(面试重点)
2.1 表的分类
2.1.1 实体表
实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。
用户表:
2.1.2 维度表
维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。
比如地区表,订单状态,支付方式,审批状态,商品分类等等。
2.1.3 事务型事实表
事务型事实表,一般指随着业务发生不断产生数据。特点是一旦发生不会再变化。
一般比如,交易流水,操作日志,出库入库记录等等。
2.1.4 周期型事实表
周期型事实表,一般指随着业务发生不断产生变化(更新, 新增)的数据。
与事务型不同的是,数据会随着业务周期性的推进而变化。
比如订单,其中订单状态会周期性变化。再比如,请假、贷款申请,随着批复状态在周期性变化。
订单表:
2.2 同步策略
数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表 全量表:存储完整的数据。 增量表:存储新增加的数据。 新增及变化表:存储新增加的数据和变化的数据。 拉链表:对新增及变化表做定期合并。
2.2.1 实体表同步策略
实体表:比如用户,商品,商家,销售员等
实体表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。
2.2.2 维度表同步策略
维度表:比如订单状态,审批状态,商品分类
维度表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。
说明:
1)针对可能会有变化的状态数据可以存储每日全量。
2)没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以只存一份固定值。
2.2.3 事务型事实表同步策略
事务型事实表:比如,交易流水,操作日志,出库入库记录等。
因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成每日增量表,即每日创建一个分区存储。
2.2.4 周期型事实表同步策略
周期型事实表:比如,订单、请假、贷款申请等
这类表从数据量的角度,存每日全量的话,数据量太大,冗余也太大。如果用每日增量的话无法反应数据变化。
每日新增及变化量,包括了当日的新增和修改。一般来说这个表,足够计算大部分当日数据的。但是这种依然无法解决能够得到某一个历史时间点(时间切片)的切片数据。
所以要用利用每日新增和变化表,制作一张拉链表,以方便的取到某个时间切片的快照数据。所以我们需要得到每日新增及变化量。
2.3 范式理论
2.3.1 范式概念
关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的冗余性,目前业界范式有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。
范式可以理解为设计一张数据表的表结构,符合的标准级别。
使用范式的根本目的是:
1)减少数据冗余,尽量让每个数据只出现一次。
2)保证数据一致性
缺点是获取数据时,需要通过Join拼接出最后的数据。
2.3.2 函数依赖
2.3.3 三范式区分
下载附件
尘埃落定!从此再无一汽马自达?被车友戏称东瀛宝马的马自达最近两年过得其实并不好。根据马自达公布的2020年年报显示,品牌在全球范围内多方面都呈下滑趋势,不仅128。7万辆的全球销量同比下跌了9。3,销售额也下跌
平均售价超大众约1万元,比亚迪真的实现超越了吗?不久前,汽车产业数字化应用服务商威尔森公布的一组监测数据引起了网友们的热议。据数据显示,今年17月份,比亚迪的平均售价已经达到了15。18万元,不仅超过了大众汽车(14。78万元)
欧尚X7PLUS月底正式预售,限量版红盒已开启前不久,长安欧尚X7PLUS进行了一场性能封测直播,其表现让人直呼精彩,很多人也开始期待这台自主SUV的预售价和实际表现,近日,欧尚X7PLUS又搞了一波事情。8月18日,欧尚汽车
换代即将来临,外观时尚内饰豪华,但现在抄底旧款是时候吗?伴随着汽车行业的发展和行业之间的竞争,一款车再不是长达数十年的时间才更新换代,车型换代不但可以展现了车企的实力,还能有效提升品牌竞争力。放在国内而言,近年来自主品牌的不断崛起,令到
小金标加成,漫步者真无线圈铁降噪耳机深度体验优点一是外观设计硬朗,和别的耳机风格不一样,有个性。二是耳机硬件配置强悍,包装配件用心,结合其898售价,和索尼WF1000XM4对比性价比还是挺高。三是佩戴舒适牢固,防水性能良好
主动引导深入学习,孩子喜欢也更好用的有道词典笔K3体验家有三岁萌娃一枚,据说两三岁正是学习第二门语言的好时机,反正普通话也已经基本掌握了,日常交流流畅清晰,所以在两岁多的时候就开始学习英语了。除了上课培训和app学习以外用的最多的就是
猫咪会不会认为在猫砂盆里拉屎是它每天的工作呢?之前看过一篇文章,说是在猫咪的意识里认为它所在的家是它的,家里的一切也是它的,包括铲屎官也是它的。所以猫咪总是给人傲娇的感觉,因为它就是这片领域的主人啊。每天早上我给猫咪铲屎的时候
物联网能否消除制造业对ERP和MES的需求?物联网是制造业4。0(也被称为第四次工业革命)的主要推动力量。制造业4。0是一项数字化倡议,于2015年始于德国,推动了制造业和仓储领域的数千个传感器机器人和自动化项目。在生产线上
三十而已看完顾氏育儿经,我决定把孩子送去学编程第二课堂003期普通家长如何培养出一个许子言文末有带娃锦囊!仅你可见要说当下最火的电视剧,要数三十而已了,原因是这它说出了大部分三十岁女性的心声,三位主角在差不多的年龄带着各不相同
教师节快乐你们只是长大了的孩子王来自学生暖心的问候当我看到学生的这段话时,不禁想起我的学生时代。小时候最盼望下课铃声,长大后我们站上三尺讲台小时候最害怕被老师叫进办公室,长大后我们和孩子们一起学习一起玩耍。时过境
高考试卷中频繁出现编程题,你还能淡定吗?近年来,编程成为了热门考题,在高考试卷中频繁出现,几乎每年必有编程题。这些题目考察的正是孩子的数理思维与逻辑推理能力。而对于学过编程的孩子来说编程题简直就是送分题!一高考试卷中的编