范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

数据分类的维度大全

  数据分类概述
  数据天然具备不同的属性和特征,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据采用不同的分类方法。
  不同维度下数据的分类如下:
  1. 按数据的结构特征
  l  结构化数据
  结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。
  其一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
  l  非结构化数据
  非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表或自描述语言来表现的数据。
  它本质上是异构和可变的,可同时具有多种格式,包括:文档、文本、图片、音频、视频等。
  l  半结构化数据
  指非关系模型的,具有基本固定结构模式的数据。它一般是自描述的,数据的结构和内容混合在一起,没有明显的区分。例如html、日志文件、XML、JSON、E-mail等。
  半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
  2. 按数据的应用层次
  l  第一层:元数据
  元数据是关于数据的结构化数据,用于定义和描述其他数据,便于理解、查找、获取、使用和管理数据。根据其属性的不同,元数据可分为业务元数据、技术元数据、管理元数据。
  l  第二层:参考数据
  参考数据,是数据可能的取值范围及其解释,是对其他数据进行分类和规范的数据。
  l  第三层:主数据
  主数据也称为基准数据,是用来描述企业内部核心业务对象的、具有高业务价值的、在企业内被多个业务部门和系统之间共享的、且相对静态的数据,被誉为企业的"黄金数据"。
  l  第四层:事务数据
  事务数据,也称为活动数据,指的是记录企业经营和管理过程中产生的事务型数据,比如销售订单,采购订单,报销流程工单等。
  l  第五层:分析数据
  分析数据,指的是由各类事务数据组成的数据,比如各种报表,BI分析,审计数据等,是由很多事务型数据,进行组合搭建的。
  l  第六层:规则数据
  规则数据是结构化描述业务规则变量的数据(如会员等级评级规则、数据质量校验规则等),是实现业务规则的核心数据。规则数据不可实例化,规则数据的变更对业务活动的影响是大范围的。
  需要说明的是:规则数据,与参考数据、主数据、事务数据、分析数据等并不是严格的层次关系,而是跨越参考数据、主数据、事务数据、分析数据等四层,参考数据、主数据、事务数据、分析数据中,都会涉及到对规则数据的调用。
  3. 按数据的生产方式
  l  原始数据
  原始数据是指来自上游系统的,没有做过任何加工的数据。
  虽然会从原始数据中产生大量衍生数据,但还是会保留一份未作任何修改的原始数据,一旦衍生数据发生问题,可以随时从原始数据重新计算。
  l  衍生数据
  衍生数据是指通过对原始数据进行加工处理后产生的数据。衍生数据包括各种数据集市、汇总层、宽表、数据分析和挖掘结果等等。从衍生目的上,可以简单分为两种情况,一种是为提高数据交付效率,数据集市、汇总层、宽表都属于这种情况。另一种是为解决业务问题,数据分析和挖掘结果就属于这种。
  4. 按描述事物的角度
  l  状态类数据
  描述客观世界的实体,也即一个个对象,比如人、桌子、账户等等。对于这些对象,各有各的特征,不同种类的对象拥有不同的特征,比如人的特征包括姓名、性别和年龄,桌子的特征包括颜色和材质;对于同一种对象的不同个体,其特征值不同,比如张三男20岁,李四女24岁。有些特征稳定不变,而另一些则会不断发生变化,比如性别一般不变,但账户金额、人的位置则随时可能变化。
  因此,可以使用一组特征数据来描述每个对象,这些数据可以随时间发生变化(数据的变化一方面依赖于对象的变化,另一方面依赖于变化反映到数据上的时间差),每个时点的数据反映这个时点对象所处的状态,因此称之为状态类数据。
  l  事件类数据
  描述客观世界中对象之间的关系,它们是怎么互动的,怎么发生反应的。我们把这一次次互动或反应记录下来,这类数据称之为事件类数据。比如客户到商店买了件衣服,这里出现三个对象,分别是客户、商店、衣服,三个对象之间发生了一次交易关系。
  l  混合类数据
  混合类数据理论上也属于事件类数据范畴,两者的差别在于,混合类数据所描述的事件发生过程持续较长,记录数据时该事件还没有结束,还将发生变化。比如订单,从订单生成到结案整个过程需要持续一段时间,首次记录订单数据是在订单生产的时候,订单状态、订单金额后续还可能多次变化。
  5. 按数据的存储方式
  数据按其存储方式,可以分为关系型数据、键值数据、列式数据、图数据、文档数据等。
  l  关系型数据
  采用关系数据模型的数据库系统,关系数据模型实际上是表示各类实体及其之间联系的由行和列构成的二维表结构。一个关系数据库由多个二维表组成。表中的每一行为一个元组,每一列为一个属性,对关系型数据库进行操作通常采用结构化查询语言。
  l  键值数据
  是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。
  l  列式数据
  是一种非关系数据库,以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。
  l  图数据
  是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。比如,社会网络中人与人之间的关系。
  l  文档数据
  是NoSQL中非常重要的一个分支,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据。
  6. 按数据的产生频率
  l  批量数据
  这种方式下,数据每隔一段时间提供一次,把该时段内所有变化的数据都提供过来。批量方式时效较低,大部分传统系统都采用T+1方式,业务用户最快只能分析到前一天的数据,看前一天的报表。
  l  实时数据
  每当数据发生变化或产生新数据,就会立刻提供过来。这种方式时效快,能有效满足时效要求高的业务,比如场景营销。但该方式对技术要求更高,必须保证系统足够稳定,一旦出现数据错误,容易造成较严重的业务影响。
  7. 按数据的使用频率
  l  热数据
  热数据是需要被计算节点频繁访问的在线类数据。
  比如可以是半年以内的数据,用户经常会查询它们。热数据适合放在数据库中存储,比如MySql、MongoDB和Hbase等。
  l  冷数据
  冷数据是指离线类不经常访问的数据。主要用于灾难恢复的备份或者因为要遵守法律规定必须保留一段时间,比如企业备份数据、业务与操作日志数据、话单与统计数据等。
  冷数据通常会存储在性能较低、价格较便宜的文件系统里,适用于离线分析,比如机器学习中的模型训练或者大数据分析。
  l  温数据
  温数据是非即时的状态和行为数据,也可以简单理解为把热数据和冷数据混在一起就成了温数据。如果整体数据量不大,也可以不区分温数据和热数据。
  8. 按数据的连续属性
  l  连续型数据
  连续数据类型代表着数据的取值是连续不间断的,可以用某种尺度进行连续的测量取值,在可能值的有限或无限范围内都可以无限取值。
  从统计学上讲,范围是指最高和最低观察值之间的差异。连续数据可以分解为分数和小数,即可以根据测量精度将其有意义地细分为更小的部分。
  例如人的身高,商品的价格,水果的重量等。
  l  离散型数据
  离散数据是指依赖计数的定量数据类型,仅包括那些只能以整数或整数计算并且是独立的值,这意味着数据不能分解为小数或小数。
  例如,学校的学生人数,停车场的汽车数量,实验室的计算机数量,动物园的动物数量等。
  9. 按数据的测量尺度(统计数据的分类)
  l  定类数据
  名义级数据,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。
  例如,性别"男"编码为1,"女"编码为2。
  定类数据是数据的最低级。
  l  定序数据
  用数字表示个体在某个有序状态中所处的位置,不能做四则运算。
  具有内在固有大小或高低顺序,能够对事物进行分类,比较事物之间的大小差异,但不能做四则运算。
  例如,"受教育程度",文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
  定序数据是数据的中间级。
  l  定距数据
  由定距尺度计量形成的,具有间距特征的变量,表现为数值,有单位,是对事物进行精确描述的数据。
  定距尺度不仅能比较各类事物的优劣,还能计算出事物之间差异的大小,所以其数据表现为"数值"。
  定距数据可以进行加减运算,但不能做乘除运算,其原因为定距尺度中没有绝对零点(定距尺度中的"0"是作为比较的标准,不表示没有)。
  例如,每一度的温差都是相同的,为1度;再比如,百分制考试成绩,分值之间的间隔一般为10分,即60~70分为一档,70~80分为一档,80~90分为一档。
  l  定比数据
  是有序的数据排列,存在一个绝对的零点,所描述的都是具有零值基准的变量,包括重量、高度和长度等。如商品的销售额。
  定比数据既有测量单位,也有绝对零点(可以取值为0),可以做乘除运算。
  定比数据是数据的最高级。
  不同测度级别的数据,应用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
  一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。
  10.按数据的共享属性
  公共数据按照共享属性分为无条件共享类、有条件共享类和不予共享类三种类型。
  l  无条件共享类
  可以提供给所有公共管理和服务机构共享使用的公共数据属于无条件共享类。
  l  有条件共享类
  可以按照一定条件提供给有关公共管理和服务机构共享使用的公共数据属于有条件共享类。
  l  不予共享类
  不宜提供给其他公共管理和服务机构共享使用的公共数据属于不予共享类。
  11.按数据的开放属性
  公共数据按数据的开放属性,可以分为禁止开放类、受限开放类、无条件开放类等。
  l  禁止开放类
  开放后涉及国家安全、公共安全、经济安全和社会稳定的;涉及商业秘密、个人隐私的;因数据获取协议或者知识产权保护等禁止开放的;法律、法规规定不得开放的。
  l  受限开放类
  涉及商业机密、个人隐私,其指向的特定公民、法人或者其它组织同意开放,且法律、法规未禁止的;开放将严重挤占公共基础设施资源,影响公共数据处理效率的;开放安全风险难以评估的;依法经脱敏、脱密等处理的禁止开放类公共数据,符合受限开放的,应列为受限开放类公共数据。
  l  无条件开放类
  除禁止开放类与受限开放类公共数据以外的其他公共数据;已脱敏、脱密等处理的禁止开放类与受限开放类公共数据,符合无条件开放的,可列为无条件开放类公共数据。
  12.按字段的类型
  l  文本类(string、char、text等)
  文本类数据常用于描述性字段,如姓名、地址、交易摘要等。这类数据不是量化值,不能直接用于四则运算。在使用时,可先对该字段进行标准化处理(比如地址标准化)再进行字符匹配,也可直接模糊匹配。
  l  数值类(int、float、number等)
  数值类数据用于描述量化属性,或用于编码。如交易金额、额度、商品数量、积分数、客户评分等都属于量化属性,可直接用于四则运算,是日常计算指标的核心字段。邮编、身份证号码、卡号之类的则属于编码,是对多个枚举值进行有规则编码,可进行四则运算,但无实质业务含义,不少编码都作为维度存在。
  l  时间类(data、timestamp等)
  时间类数据仅用于描述事件发生的时间,时间是一个非常重要的数据分析维度。
  13.按数据的粒度
  l  明细数据
  通常从业务系统获取的原始数据,是粒度比较小的,包括大量业务细节。比如,客户表中包含每个客户的性别、年龄、姓名等数据,交易表中包含每笔交易的时间、地点、金额等数据。这种数据我们称之为明细数据。明细数据虽然包括了最为丰富的业务细节,但在分析和挖掘时,往往需要进行大量的计算,效率比较低。
  l  汇总数据
  为了提高数据分析效率,需要对数据进行预加工,通常按时间维度、地区维度、产品维度等常用维度进行汇总。分析数据时,优先使用汇总数据,如果汇总数据满足不了需求则使用明细数据,以此提高数据使用效率。
  14.按数据的归属主体
  l  政府数据
  政府数据是指政府所拥有和管理的数据,以及政府因开展工作而产生或因管理服务需求而采集的外部大数据,为政府自有和面向政府的大数据。狭义上的政府数据主要包括公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计及气象等数据。
  l  企业数据
  企业数据是指所有与企业经营相关的信息和资料,包括企业概况、产品信息、经营数据及研究成果等,也包括企业的商业机密。
  l  个人数据
  个人数据是指以电子或其他方式记录的能够单独或与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址及电话号码等。
  15.按公民个人维度
  按照数据是否可识别自然人或与自然人关联,将数据分为个人信息、非个人信息。
  16.按公共管理维度
  为便于国家机关管理数据、促进数据共享开放,将数据分为公共数据、社会数据。
  17.按信息传播维度
  按照数据是否具有公共传播属性,将数据分为公共传播信息、非公共传播信息。
  18.按行业领域维度
  按照数据处理涉及的行业领域,将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等,其他行业领域可参考GB/T 4754—2017《国民经济行业分类》。
  19.按组织经营维度
  分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
  l  用户数据
  组织在开展业务服务过程中从个人用户或组织用户收集的数据,以及在业务服务过程中产生的归属于用户的数据。如个人用户信息(即个人信息)、组织用户信息(如组织基本信息、组织账号信息、组织信用信息等)。
  l  业务数据
  组织在业务生产过程中收集和产生的非用户类数据。如产品数据、合同协议等。
  l  经营管理数据
  组织在机构经营管理过程中收集和产生的数据。如经营战略、财务数据、并购及融资信息等。
  l  系统运行和安全数据
  网络和信息系统运维及网络安全数据。如网络和信息系统的配置数据、网络安全监测数据、备份数据、日志数据、安全漏洞信息等。
  20.按组织数据的来源
  按组织数据的来源,分为内部数据和外部数据。
  内部数据自己单位内部产生的数据。
  外部数据指从本单位外部得到的数据。
  21.按数据的业务主题
  企业或组织通常都有自己的业务分类,基于数据所反映的业务主题,可以将数据按业务板块、数据域、数据主题等层次进行分类。
  比如电商企业,按业务域分类,可以分为零售板块、物流板块、金融板块等。
  按数据域划分,通常会包括营销域、销售域、会员域、供应链域、产品域、财务域、人事域等。
  总之,数据分类在数据资产管理中的价值很大,但一定要以业务价值为导向,要么提升管理效率,要么能提升客户体验,不要为了分类而分类。(全文完)
  相关推荐:
  数据、信息、知识、智慧的基本概念及DIKM模型介绍、
  数据治理、数据管理、数据资产管理等相关概念辨析
  万字长文,全面阐述数据治理体系
  基于数据应用层次的数据分类模型
  感恩遇见,如果觉得有用,记得点击右上方的"关注"哟,定期为您分享实用的干货~

20222023赛季全国冬季两项锦标赛冠军赛准备工作就绪20222023全国冬季两项锦标赛将于2月3日2月9日在甘肃白银国家雪上项目训练基地举行,目前赛前各项准备工作就绪。记者兰雨晴在白银国家雪上项目训练基地,赛道的铺设工作已经全面完成三星GalaxyS23系列不支持卫星通信,官方称现在还为时过早IT之家2月2日消息,华为Mate50和苹果iPhone14系列都已经支持卫星通信,然而刚刚发布的三星GalaxyS23系列却意外的没有提供这一功能。对此,三星公司总裁兼移动体验业GalaxyS23系列没有引入卫星通讯功能,三星表示还不是时候此前华为和苹果先后发布了Mate50系列和iPhone14系列智能手机,其中一大亮点是支持卫星通讯的功能,前者支持北斗卫星消息,后者引入了通过卫星通讯的紧急SOS功能。传闻三星也准PDD豪车曝光!库里南星空顶开到三亚只为留给父亲用PDD最为直播界的一哥,从职业选手转型主播是非常成功的,期间组建战队,为LPL幕后也做了不少工作,作为电竞黄埔军校的校长,培养出优质打野,两度获得S赛冠军。此外PDD还是是小象互娱项羽为何不肯渡江?这几个原因决定他不会这么做南宋词人李清照的夏日绝句曾有诗云生当作人杰,死亦为鬼雄。至今思项羽,不肯过江东。这首诗描写的是著名霸主项羽,秦末汉初楚汉争霸,项羽被刘邦围堵在垓下,他放弃逃生,最后战死的故事。当时身退的原因记一代谋臣张良(3)头条创作挑战赛史记留侯世家的说法留侯乃称曰家世相韩,及韩灭,不爱万金之资,为韩报仇强秦,天下振动。今以三寸舌为帝者师,封万户,位列侯,此布衣之极,于良足矣。愿弃人间事,欲从赤松子游对话丨花海低谷永不言弃,巅峰享受荣誉中新网北京2月2日电(记者王昊)花海捧着属于自己的又一座年度最佳选手奖杯,在台上条理清晰地发表着获奖感言。在KPL年度颁奖礼上,他以这样圆满的姿态告别2022年。过去的一年,是属于今天,让我们与美丽多彩的湿地结缘2月2日是第27个世界湿地日今年的主题是湿地修复据世界自然基金会给出的定义湿地是土地被水覆盖的地方沼泽池塘湖泊或海洋的边缘以及河口的三角洲等都属于湿地今天,让我们一起邂逅湿地风光和每斤10块钱白酒这样变成茅台五粮液宝山警方破获一起制售假酒案新民晚报讯(记者郭剑烽通讯员周帆)在上海宝山大场镇的一处居民楼里隐藏着一个造酒小作坊,这里生产出来的竟全是名酒。每斤10元左右的低价白酒在灌装进回收来的高端白酒空瓶内之后,经过一系太喜欢这个汤了,简单快手,十分钟端上桌,一碗下肚开胃又暖身我觉得,冬天做饭真的可以偷懒。每当不知吃什么的时候,我就想着煮一锅汤,多种食材一锅出的那种。每人一碗汤,不用炒菜了,再来一个馒头,简单省事,好吃又管饱。虽然说有些汤做法看着差不多,滑雪胜地正努力适应变暖的世界坎皮特洛马特塞是意大利中南部的热门滑雪胜地,由于高温和缺雪,无法支持滑雪者运动。图片来源美国时代周刊网站一些滑雪胜地正在用保护毯覆盖冰川,以防止它们在夏季融化。图片来源英国广播公司
五万以内摩旅神器骑摩托车去旅行是多么美的一件事,但是呢如何去选择一款适合自己的车这就是个问题,给大家推荐三款摩旅神器。第一款五羊本田CB400X(4。25W4。85W)此车为什么推荐首先本田的品质湖南省气象台发布高温黄色预警III级较重湖南省气象台2022年9月8日15时40分发布高温黄色预警预计8日20时至9日20时,长沙(雨花区高新区长沙县望城区天心区芙蓉区开福区岳麓区浏阳市宁乡市)株洲大部分地区(醴陵市天元苹果精准刀法切割!iPhone14系列发布,会跳动的刘海屏一年一度的科技界春晚在今天凌晨1点准时召开了,这次的发布会的产品也是相当丰富的。除了万众瞩目的iPhone14系列,还发布了三款AppleWatch产品和AirPodsPro2产品萝北高速高质发展答卷亮眼提气来源黑龙江日报太平沟五花山。大卫广场。张力摄五矿石墨调度指挥中心。小学校开展爱国主义教育活动。萝北口岸。萝北县中医院义诊活动。萝北县城区。过去的十年,萝北走过了极不平凡的奋斗历程。华为新机发布在即,你会期待吗?华为新机发布在即华为官宣9月6日发布!相比40,新增了哪些优势?1根据供应链消息华为已开始批量生产,整部手机采用曲面屏,其中的核心部件和技术的定位相应提高。并有望在新产品发布会上推锂行业分析报告锂盐供应端利润高增之后,可持续性与矿冶分化(报告出品方作者东证期货,陈祎萱)1引言随着各企业半年度业绩陆续披露,不难看出,当前锂电全产业链中,上游供应端充分受益于锂盐价格高增享有了最为丰厚的利润。那么站在当下,市场更为关注2022年办理退休,视同缴费年限如何认定,哪些人有视同缴费年限?视频加载中我国的养老保险制度各地开始的时间各不相同,最早1992年开始有养老保险个人账户,最晚可以到1998年。由于各地实施的时间不一样,导致视同缴费年限转移时产生了混乱,直到16疾驰汾酒陷入同室操戈,短期产能或陷困局山西汾酒迎来其史上最好半年报,然而,萧墙之内或许上演同室操戈,中汾酒业或成达尔摩斯之剑,让山西汾酒陷入短期产能短缺困局。作者老高(酒业资深从业者)2015年创办酒特卖至今,2006为啥理想ONE急于停产?了解下蔚小理最近的窘境,你会明白的蔚小理水逆的8月10677辆,同比增长81。69578辆,同比增长32。74571辆,同比下滑51。5。以上,分别是蔚小理三家在8月交出的成绩单,老实说,暗含不少唏嘘。过去一年,除在救援现场,太想让他们都活着泸定地震救援实录阿坝,汶川。四个字的标牌,异常醒目,被缝在橘黄色衣服的袖子上。穿着这身消防员衣服的救灾男孩张自立,正双手托抱着一个小婴儿。不熟练的姿势以及眼神里投射出的紧张,所有人都能看得出,他太王者1号更新,1传说1史诗返场,荣耀水晶双重打折,裴擒虎笑了大家好,这里峡谷热点报,将会给你带来王者荣耀最新的爆料内容。王者荣耀每周更新来了,这一次并没有新皮肤,不过官方给我们准备了一款限定史诗返场,和一个传说特效返场。目前来看,基本上可以