范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

数据聚合中丢失的关键信息

  为了简化数据对数据进行聚合操作的同时,那些数据中我们应该察觉的细节也会被忽视。
  本文翻译自:stop aggregating away the signal in your data
  原作者:Zan Armstrong
  作为一名5年经验的数据分析师,我对谷歌的员工收入进行了分析和预测。作为一名6年经验的数据可视化专家,我已经帮助客户和同事从他们最了解的数据中发现了新的特性。我发现,在通过对重要信息进行更具体的描述后,我们可以接受数据中的复杂性  ,发现数据中的新特征。这些特征可以使我们提出更多的问题,实现数据驱动分析工作开展,从而改变我们分析数据的方式、为模型选择的参数、数据科学工作开展的流程或业务开展的策略。
  我和我的同事Ian Johnson、Mike Freeman最近合作了一系列关于德克萨斯州和加利福尼亚州用电量的数据驱动故事,对分析时间序列数据的最佳实践进行了说明。我们发现自己在不断地改变对数据进行可视化的方式,以揭示潜在的信息,而不是通过遵循将每小时数据汇总到天、周或月的常规处理方式,将这些信息当作噪声消除了。在我们为时间序列分析推荐的许多最佳实践中,背后是一个更深层次的主题:如何真实地还原数据中复杂且丰富的信息。
  聚合是分析时间序列数据的标准最佳实践,但它可能会产生问题,因为它剥离了关键的数据语境,以至于你甚至没有意识到你失去了多少潜在的数据洞察。在本文中,我将首先讨论聚合可能带来的问题,然后介绍聚合的三个具体替代方案,并举例说明聚合前后的数据情况:重新排列数据以进行"同类比较"。在数据中添加重要的概念,如"夏季"vs."冬季"。或数据定义的类别,如能源使用量的"高"或"正常"。通过将数据拆分为"前景"和"背景"来使用数据本身作为数据语境,因为想理解我们感兴趣的特定数据子集,在完整的数据集中去理解数据语境是非常有必要的。
  由Shan Carter, Zan Armstrong, Mike Freeman和Ian Johnson完成可视化创作。
  聚合的问题是什么?
  当我们谈到算法和教机器从数据中学习时,我们认为大型、丰富的数据集的是非常重要的。然而,当我们可视化数据以使我们人类能够理解它时,尤其是时间序列数据,我们往往会使对数据进行简化处理。
  默认对数据进行聚合是有原因的。原始的大量数据会让人感到难以承受不知如何处理。"大数据"可以轻易拥有1M的数据点,相当于超过一台基本笔记本电脑屏幕上的像素数。有许多可靠的统计方法可以有效对数据进行聚合,从而提供有价值的数据语境(例如与中位数比较)。在有些情况下,我们需要看到数据的更多细节,同时试图找到关键的数据洞察,但一旦我们完成了对数据的分析,知道数据中哪些特征最重要的时候,那么聚合就可以成为一个有用的工具,在分析结论中用数据聚合的结果来表达对数据的洞察。
  但每次进行汇总时,你都要做出一个决定:数据的哪些特征重要,哪些是你愿意放弃的:哪些是信号,哪些是噪声。当你对折线图进行平滑处理时,这样做的原因是因为你已经决定了每天的平均值是最重要的,你不关心高峰使用时间的分布或季节变化吗?或者对数据进行平滑的处理的原因是这是你所知道的唯一能让你图表上的锯齿线消失的方法?
  在对数据充足了解后的聚合操作可以简化和确定优先级。对数据没有了解的情况下进行数据聚合,意味着你永远不知道你失去了什么洞察。
  在我们急于对数据进行聚合的过程中,我们有时会忘记数字是与真实的事物相联系的。人为因素在每小时、每天、每周、每月和每季度中模式过于熟悉因此容易被忘记。又或许是因为我们很少在实践中看到有效的对数据进行分类的案例,以至于我们甚至没有意识到可以这么去做。通过考虑这些季节性模式,这些人为因素,我们可以以更有意义的方式拥抱复杂性。
  关于能源消耗问题稍加思考,很明显我们在下午晚些时候比早上消耗更多的能量,所以我们预计每天都会有大的下降和波谷。夏季和冬季的日常能源使用模式是不同的,这也不应该让人感到惊讶。这些模式并不是无意义的,而是理解这些数据的关键。我们特别需要这个数据语境来告诉我们什么是符合预期的,什么是值得注意的。
  然而,当我们的数据集每天或每小时都有较大的、有规律的波动时,我们的折线图就会看起来像一堆参差不齐的线条。这张图表显示了8760个数据点,代表了加州一年来每小时的能源使用数据。
  处理这张密密麻麻的图表的标准方法是应用日、周或月(定义为四个周)的移动平均线。
  现在我们有一个简单的图表,容易看到能源使用量情况最低的在4月,8月下旬是使用量高峰。但这个结论我们同样可以从第一张图表中看出,此外,在这张未经聚合的图表中我们还能解决其他有趣的问题。相反聚合后的图表丢弃了太多的信息,以至于我们甚至不知道我们失去了什么。
  这种在4月下降、8月达到峰值的年度模式,在一天中的所有小时都一致吗?随着季节的变化,一天中的某些小时或一周中的某些天会比其他时间变化更大吗?在他们的一年/一天中,有没有什么小时、天或星期是不寻常的?什么是异常值?能源使用在一年中的所有时间都是相同的变化,还是某些星期/季节/小时比其他时间更一致?
  尽管开始时数据应该包含这些问题的答案,但聚合后的数据让我们无法回答这些问题。此外,这条平滑的线甚至没有给我们任何提示,告诉我们应该问什么问题,或者什么值得深入研究。解决方案:通过重新安排、扩充和使用数据本身来提供上下文来接受复杂性。1 .不要聚合:重新排列
  如果我们根据我们对人类行为和环境因素(尤其是温度)的了解来考虑哪些类别可能是重要的呢?比如一天中的时间和一年中的时间?在《发现数据模式》中,我们将数据分组成96个小的、对齐的刻度图,每个季节、每天、每个小时分别画一个刻度图,并围绕最重要的概念组织可视化。每个迷你图表的x轴是用电量,每个刻度代表特定一天的一个小时。
  通过这种方式,我们可以立即看到每个小时和每个季度的典型特征或不寻常之处。例如,一般来说冬季午夜比凌晨3点消耗更多的能量。在一栏中,我们可以看到每个季节的一天的形状。并且,通过比较每一栏和下一栏,我们可以看到不同季节每小时的能源需求是如何变化的。
  现在,"噪音"变成了有价值的信息。我们可以清楚地回答上述问题:这种每年的模式在一天中的所有时间都一致吗?不,冬季和夏季一天中能量消耗的"形状"是不同的,Q1是双峰,Q3是单峰。此外,除了有一些不寻常的日子外,Q4看起来和Q1很像。而Q2显示出一天的"形状"变化最大。在季节变化中,一天或一周中的某些小时比其他时间变化更大吗?是的。从第一季度到第三季度,下午晚些时候和傍晚时分的能源使用量比凌晨的时候增加得多。在图中的一年中的哪些日子里,有没有什么小时、天或星期是不寻常的?是的。例如,在第四季度,一些非常不寻常的日子在晚上使用了大量的能源。是的。在第三季度的清晨时段(凌晨4点到6点之间),有一些异常的日子,能耗要高得多。能源使用在一年中的所有时间都是相同的变化,还是某些小时/星期/季节比其他时间更一致?不!Q1的能源使用非常稳定,一天中任何特定时间的能源使用范围分布非常集中。与此同时,Q2显示了非常不稳定的能源使用,有很多变化,特别是在能源使用较高的夜间时段。
  我们不仅立即注意到一些模式,而且这种对数据的视角也让我们有机会通过对数据更深入的观察来进行挖掘更深层次的信息(并对加州当时发生的事情做一些基础研究)。
  让我们仔细看看第三季度的清晨。下午4点到6点之间有一些异常高的数值。通过图表上的交互功能可以得知,这些事件发生在8月19日。在谷歌上快速搜索"加州2020年8月19日",就会发现该地区当时正在遭受野火的侵袭,所以人们可能会关闭窗户,打开空调,而不是打开窗户来迎接更凉爽的夜间空气。9月6日也出现在最高值之列,一项搜索表明了一个可能的原因:加州创纪录的热浪袭击了全国新闻,而大火仍在燃烧。
  总的来说,我们的点状热力图与原始锯齿线的数据点数量相同,但现在我们可以看到潜在的每日和季节模式(以及每日模式如何随季节变化)以及相对的异常值。我们在图表上花的时间越多,我们注意到的就越多,因为它会让我们提出新的数据驱动的问题。2.先突出重要信息,然后分组或分颜色引入常识:用熟悉的分类来扩充
  在我们探索性分析的另一个点,我们看了一张显示加州52周每小时用电量的图表(如上所示),并注意到高能量周似乎每天晚上都有一个单一的高峰,而低能量周似乎有更多的双高峰(如上所示)。这实际上与第一节重排中揭示的模式相同。
  我们猜测,单驼峰/双驼峰可能与气温的季节性差异有关。为了测试这个假设,我们向数据集中添加了一列来指定"夏季"与"冬季",然后通过分割该参数上的数据来制作两个图表(分组)。突然,事情变得明显起来。我们不再辛苦地去识别隐藏在密集的线条中的信息。
  "分组"本身很简单,这是许多绘图工具内置的功能。事后看来,这似乎是一种明显的数据分割方式。但我们多久后退一步,用这些与人们容易识别的概念来扩充我们的数据呢?关键是要有夏季/冬季参数。
  不一定要完美。猜测夏季/冬季的日期边界足以看到一个明显的模式出现。一旦我们在这里看到了双凸点/单凸点的洞察,我们就可以使用该洞察返回从而对我们的数据有更深的理解。例如,在"夏天"似乎有一些日常能源消耗为"双凸"的周存在。这些少数周应该被划分为冬季(或秋季或春季)吗?或者它们是夏季的特殊周?此外,既然我们知道了一个数据特征如何被定义,我们可以使用该数据特征对数据进行分类,从而使用这些数据来识别能源使用何时从"夏季"模式转变为"冬季"模式。增加数据驱动的分类
  这张折线图显示了亚特兰大一个家庭从2021年3月到7月的每日能源使用情况。你注意到了什么?大量的峰值?夏季几个月的能源消耗更高?
  切换到散点图,可以更明显地看出,有能源使用正常的日子,也有能源使用较高的日子。画一条移动平均线加上一个(5kwh)缓冲区,使"正常"和"高能"天数之间的区分更加清晰,并表明即使夏季能源使用总体增加,"正常"和"高能"天数之间的能源消耗差距仍然保持一定水平。
  既然我们的探索性数据分析揭示了两种不同的类别(正常和高能),我们可以通过使用移动平均线来定义属于每个类别的点来扩充我们的原始数据。然后我们可以通过对这些分类中的点赋予不同颜色,以便于分析。
  通过这种方式,我们完成了这个分析的闭环:通过使用可视化来注意到数据的一个关键特征,并利用这种洞察力来进一步分类我们的数据,使可视化更容易阅读。在此基础上可以更进一步,继续基于这个分类对我们的数据进行分析,通过创建一个分月的柱状图来区分显示高能量使用的天数和正常使用的天数。通过这种观点,我们可以看到,在夏季,正常日的能源使用量上升了,而且6月和7月的高能量天数比3月和4月更多(即使考虑到时间段内的基准能源使用量也上升了)。因此,我们现在可以有把握地说,总体能源消耗增加的原因有两个:(1)基准能源使用增加,(2)高能量日的比例增加。
  这种观察、增强、然后使用分类再次观察的模式也可以揭示我们分类的任何问题,比如在数据的第六天出现的高点被错误标记,因为移动平均线直到第七天才被定义(作为移动平均线)。这给了我们改进分类算法的机会。
  虽然这个例子使用了"移动平均+ 5kwh"的非常简单的算法来将天数划分为"正常"或"高能",但随着我们的算法变得更加不透明,这种"看、增强、看、细化分类"的循环对机器学习变得更加重要。3.将你的数据分成前景和背景根据兴趣时间段分割
  我们还研究了2021年1月和2月在德克萨斯州不同燃料类型产生的能量的数据 ,包括2月份的一段关键时期,在这段时间里,为了避免一场不同寻常的冬季风暴导致电网崩溃,政府启动了轮流停电  。在分析故事中,我的同事Lan对数据进行了分析,为每种燃料类型创建了一个图表。这是相当有效的:你可以立即看到哪些燃料构成了德克萨斯州的主要能源,以及2月中旬的一些异常模式。
  Lan知道关键时期大约在2月7日到2月21日,他进一步将注意力集中在这两周,将前后几周的数据进行透明处理,并添加垂直网格线。他可能是想删掉这段时间以外的数据。毕竟,为什么要在感兴趣的时间段以外的数据上浪费图表空间呢?
  但正是这些颗粒状的背景数据帮助我们了解每种燃料在关键时期的不同寻常之处。例如,在煤炭能源的图表中,无论如何我们都无法忽视在2月15日后数据的下降情况,但我们需要1月份的数据来注意到2月1日至2月15日之间几乎持平的高原是多么不寻常。同样,1月和2月下旬的核能数据显示,燃料来源通常是稳定的,这有助于我们注意到2月15日之后的下降趋势是有些奇怪的。
  通过将每个感兴趣的类别与整个数据集进行比较来拆分
  当我们想知道度量A和度量B之间是否存在关系时,第一步是创建散点图。例如,下面的散点图显示了德克萨斯州在一年中每小时的室外温度和能源需求。很明显,温度和能量消耗之间存在很强的关系(尽管这种关系显然也是非线性的!)
  虽然温度和电力需求之间明显存在相关性,但很明显,温度并不能说明全部问题。对于任何给定的温度,从最低能量消耗到最高能量消耗大约有10-15K MWh的差异。我们知道,在我们自己家里,在寒冷的下午,我们把空调的温度调得比在寒冷的夜晚高得多,我们猜测,在温度和能源使用之间的关系中,白天的时间可能扮演着关键角色。
  向散点图添加额外类别的标准方法是应用一种分类颜色,从而将所有数据内容进行比较(在一个图表中比较所有时间、温度和能源需求)。如果我们这样做,我们确实看到了一些事情发生了。右上方更多的绿色和蓝色,下方更多的粉色。但要理解这些颜色代表什么,你必须在图例和数据之间来回看很多次。此外,我们难以回答这些问题:"上午10点时温度和能量之间的关系是什么?"或者,"早上和晚上相比怎么样?"
  为了回答这些问题,我们可以采用两种技术方法:将数据分组,并拆分为前景和背景。
  在下面的三个图表中,代表上午5点、上午10点和下午6点的点颜色鲜艳。同时,整个数据集以灰色显示在背景中。这为我们提供了查看每个小时的温度和能量之间关系的方法,并在以整个数据集为背景的情况下查看它。
  通过将"早上5点"与"一天中的其他时间"进行具体比较,我们可以看到,不管温度如何,早上5点的能量消耗都相对较低(而且5点的温度永远不会很高)。与此同时,在所有温度下,下午6点的能量消耗通常都更高。
  在某些方面,上午10点是最有趣的:在较低的温度下(在图的左半部分),黄点与灰点相比相对较高,表明在相同的温度下,相对于一天中的其他时间,能量消耗较高。与此同时,对于图表右半部分的高温,黄色的圆点包围了灰色区域的底部。在炎热的气温下,上午10点消耗的能量相对较少。这种洞察力不仅可以通过分组实现,还可以通过使用完整的"噪声"数据集作为一致的背景,为所有分类图表提供上下文。 总结:接受数据的复杂性
  在创建时间序列数据分析项目的过程中, Lan Johnson, Mike Freeman 和我采用了一系列的策略来接受数据的复杂性,而不是依赖于标准的方法来收集数据。那些令人沮丧的锯齿线是数据要反馈的讯息,而不是噪音。
  我们通过以下方式拥抱复杂性: 重新排列数据来进行" 同类比较"。 基于我们知道的重要概念和我们在数据中发现的东西来扩充我们的数据。 使用较大的数据集为感兴趣的数据提供背景信息(在图表前台进行突出展示)。
  这些方法对于时间序列数据尤其有效,因为潜在的每日、每周和季节性模式可能会让人无法集中注意力去进行分析。 特别是考虑这些策略,如何通过将传入数据放在更丰富的历史环境中进行快速可视化模式匹配来增强实时数据分析,以识别正常模式和异常模式  。 与此同时,这些基础技术也适用于任何可能让人感觉难以承受和嘈杂的数据,如机器学习分类或来自高通量科学实验的数据。
  在了解了这些技术的应用之后,也许下次为了简化数据而聚合数据时,您可能会尝试重新排列、扩充或将数据分割为前景/背景。从完整的数据内容中去进行分析,以揭示意料之外的模式并提示新的数据驱动问题。改变看待数据的方式我们可以真正的去接受数据的复杂性。

马丁靴输惨了!今年最火的鞋子长这样,甜中带撩太好看了!头条创作挑战赛跟大家推荐芭蕾裙的时候,结果好多姐妹都说好好看很喜欢,所以今天跟大家聊一聊它的姐妹单品芭蕾舞鞋得益于芭蕾风的流行,今年芭蕾舞鞋不要太火,所以我们就来聊一聊芭蕾舞鞋的挑长期保持美貌的秘诀,那一定是养生美是每个女孩所追求的,爱美也是每个女孩的天性,年轻的时候,不需要怎么打扮就能拥有漂亮的脸蛋。随着年龄的增长,皱纹,斑点等开始出现了,这时候需要通过好好的保养才能让自己的皮肤看起来更夜读心语微声穿过荆棘看着系统上显示的考研成绩,张君宇怔怔无言,泪水早已湿润了眼角,无数个日夜兼程,无数套真题试卷,所有的努力在这一刻得到了回报。他常说备战考研那段时光教会我的,就是在难熬的日子里永不言当着你的面做这些事的人,压根不爱你爱一个人,从来都是小心翼翼的,只有不爱你的人,才会放肆又没边界感。因为无所谓,因为不在意你对他的评价,因为不喜欢你。刚开始的时候,或许他也会带着欣赏的眼光看你,处处表现得优秀又绅士交广夜听3555岁,拼的是极简力听夜晚的声音以极简物欲,来换取精神的富足。作者阿喆主播珈宁点击下方音频收听更多精彩内容和细节人到中年,特别是3555岁这一黄金年龄,最悲哀的事是什么?不是工作上的重重压力,也不是生一个善于变通的人,才能在生活中不断地找到出路01hr常常会听到人说这个世界上最大的规律就是变化,生活里从来没有一成不变的东西。既然我们所生活的周遭注定着是复杂多变的,那么要想在这个世间更好的行走,一个人只有懂得变通的道理才能抑郁症头条创作挑战赛我想说有抑郁症的别逃避我也在尝试着去改变内心的想法虽然不是很简单不去尝试谁也不知道迈出一步可能会带来好的或不好的虽然我也很自闭我也是确诊的人我也是在吃药的虽然我很痛苦一个人的教养,体现在这些细节中教养是一个人在待人接物中所表现出来的道德修养,它不是华丽服饰,也不是外貌姣好。教养,是不动声色的体贴有网友分享了自己的故事小的时候,在他家小区门口,总有一些老人家在摆摊卖菜。每次家促改革调结构增活力甘肃能化集团去年主要经济指标快速增长来源新甘肃促改革调结构增活力甘肃能化集团去年主要经济指标快速增长每日甘肃网讯(新甘肃甘肃日报记者王占东)2022年,甘肃能源化工投资集团有限公司聚焦三新一高导向,统筹抓好稳增长促改1980年梁兴初回北京时,叶帅给他两个选择,梁兴初一个也不选铁匠将军梁兴初是位传奇将军,他不仅善于骁勇善战,而且常常能够在逆境和绝境之中反败为胜甚至能出奇兵制胜于敌人。这位开国虎将除了打仗勇猛以外,为人还高风亮节,始终不卑不亢,不论是人生巅老家阜阳袁寺赵庄与英烈王克勤相貌极似的子侄们几年前几位文史界同仁去颍泉区伍明镇元寺村赵庄考察,见到了英烈王克勤的几位后辈子侄,大家顿时为他们与王克勤高度相似的长相感到惊讶,谓之英雄的基因一脉相承。此后,将英烈王克勤的历史照片
推动资源节约集约利用内蒙古推出可量化评价指标体系中新网北京3月1日电(记者闫晓虹)推动资源节约集约利用,提升资源利用效率,对我国实现碳达峰碳中和目标具有重要意义。内蒙古自治区与中国经济信息社1日在北京联合发布中国内蒙古全社会资源才拾新能源又碰ChatGPT,浮躁的昆仑万维已失成长性业务编辑虞尔湖出品潮起网于见专栏近日,昆仑万维高调宣布和奇点智源合作,将在今年内发布中国版ChatGPT开源代码。此消息一出,昆仑万维股价小涨一波,在2月16日一度跃至26。55元股。是否赞同委员的建议退休金统一为五千,全民免费医疗三孩免费教育北京中医大学国学院院长政协委员张其成建议统一退休金无论体制内还是体制外退休后退休金一律按5000元每月领取,退休金也实行统筹,实行收入平等。张委员提议实行全民免费医疗甚至有人威胁他终于等到了,政协委员甘华田建议将试管婴儿等生殖技术纳入医保今天看到新闻,全国政协委员甘华田在接受采访时表示目前我国育龄夫妇不孕率逐年攀升,近年辅助生殖技术已成为治疗不孕不育的常规技术,但因费用问题让部分不孕人群望而却步。建议将试管婴儿等辅一孩难求的幼儿园将何去何从?新京报专栏河北迁安市光彩幼儿园惠安分园的小朋友在园内职业体验区玩耍。图新华社据中国新闻周刊报道,首轮幼儿园关停潮已到来,在一些地方,民办幼儿园2021年2022年开始面临招生难,少部分公办幼新疆广汇未参加赛前联席会,球队正常训练会继续安排2月14日,新疆队在新主场乌鲁木齐奥体中心训练。图新华社新京报讯(记者马骏赵雪)3月1日晚,CBA常规赛第三阶段将在乌鲁木齐奥体中心体育馆打响,北京首钢客场对阵新疆广汇。据新疆俱乐成吉思汗的两个分支后代被找到,基因类型测定结果如何?(上)成吉思汗的两个分支后代被找到,基因类型测定结果如何?(上)不戏说不虚构,尊重历史,以敬畏之心探索历史原貌,科学论证,为后世留下真相。分子生物学科学家对成吉思汗两个分支后代的基因类型141110!约基奇第100次三双创记录!首节16分,穆雷打爆火箭!今天9连败的火箭回到主场迎战西部第一的掘金。本场比赛杰伦格林迎来复出,但小波特和泰特因伤缺阵,掘金那边则是全员健康出战。按照两队实力来说,掘金赢球毫无悬念的。首节比赛,约基奇就带着罗马主帅穆里尼奥吃红牌,是因为心系切尔西?文羊城晚报全媒体记者刘毅世界级名帅穆里尼奥再次成为对手创纪录的背景板意甲第24轮在3月1日爆出冷门,他执教的罗马客场以1比2负于赛前排名垫底的克雷莫纳。这不仅是克雷莫纳本赛季第一场饭桌上的时间,暴露出了一个家庭教育的底色写在最后吃饭,是一件平常的事情。但它可以让我们看到一个家庭的联结的样子。在恰当的时间提供合适的食物,是否能允许孩子想吃什么,不想吃什么的偏好,如何有度地把选择权交还给孩子,父母如何来了,杜兰特来了!首秀时间确定,场均29。7分,太阳队攻击力可怕时间来到3月的第一天,NBA常规赛继续鏖战,洛杉矶湖人队前往客场挑战实力强劲的灰熊队。快船队则是迎战森林狼队。与此同时,菲尼克斯太阳队对外宣布了一则好消息,此前加盟球队的超级巨星杜