范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

中科大提出首个可证明收敛的子图采样方法ICLR2023Spotlight

  编辑:好困  【新智元导读】中科大王杰教授团队提出局部消息补偿技术,解决采样子图边缘节点邻居缺失问题,弥补图神经网络(GNNs)子图采样方法缺少收敛性证明的空白,推动 GNNs 的可靠落地。
  图神经网络(Graph Neural Networks,简称 GNNs)是处理图结构数据的最有效的机器学习模型之一,也是顶会论文的香饽饽。
  然而,GNNs 的计算效率一直是个硬伤,在大规模图数据上训练 GNNs 常常会遇上邻居爆炸(neighbor explosion)问题——节点表示和随机梯度的计算复杂度会随着图神经网络层数的增加而指数上升。
  很多 GNNs 的学术研究都会倾向于选择小规模图数据集(千量级节点数)进行实验,避开 GNNs 的计算效率问题。但是,这一问题在工业界实际落地的场景中无法避免: 在大规模图数据(十亿节点)[3] 上,这些 GNNs 根本无法运行。
  一个最简单粗暴的办法是:在每次模型训练或预测的时候,从全量图上切出一个子图,在子图上运行 GNNs。这又会带新的问题: 在子图上训练的 GNNs 能和全量图上训练的 GNNs 一样吗?子图边缘节点会不会丢失很多邻居信息?
  为此,中科大 MIRA Lab 王杰教授团队提出了一种 GNNs 的子图采样训练方法——本地消息补偿(Local Message Compensation,简称 LMC)。
  LMC 具有极低的计算开销;并且,理论证明:LMC 在 子图上训练的 GNNs 的性能可媲美在全量图上训练的 GNNs,同时 LMC 能加速 GNNs 收敛。 相关成果论文已被 ICLR 2023 接收为 Spotlight。
  作者列表:石志皓,梁锡泽,王杰
  论文链接:https://openreview.net/forum?id=5VBBA91N6n
  1. 引言
  基于消息传递机制的图神经网络(GNNs)在许多实际应用中取得了巨大成功。 然而,在大规模图上训练 GNNs 会遇到众所周知的邻居爆炸(neighbor explosion)问题——节点的依赖性随消息传递层的数量呈指数增长。
  子图采样方法——一类备受瞩目的小批量训练(mini-batch training)技术——在反向传播中丢弃小批量之外的 消息,以此避免邻居爆炸问题,但同时以牺牲梯度估计的精度为代价。这对它们的收敛性分析和收敛速度都提出了重大挑战,严重限制了它们在现实场景中的进一步应用。
  为了应对这些挑战,我们提出了一种具有 收敛性保证 的新型子图采样方法——本地消息补偿(Local Message Passing,简称 LMC)。 据我们所知,LMC 是首个具有可证明收敛性的子图采样方法。
  LMC 的关键思想是基于反向传播传递的消息传递建模来恢复在反向传播中被丢弃的消息。 通过对正向和反向传播中丢弃的消息进行高效和有效的补偿,LMC 计算出准确的小批量梯度,从而加速收敛。
  进一步地,我们证明了 LMC 收敛到 GNNs 的一阶驻点(first-order stationary points)。在大规模基准测试任务中的实验表明,LMC 在效率方面明显优于最先进的子图采样方法。
  2. 背景与问题
  2.1 图神经网络
  在实际问题中,图结构数据随处可见,例如知识图谱、分子、计算机网络、社交网络、神经元网络、文章引用网络等,如图1所示。
  图1. 图结构数据在实际问题中随处可见,图中展示了各式各样的图数据。
  图神经网络(Graph Neural Networks,简称 GNNs)通过消息传递范式 [1] 处理图数据,是当前处理图结构数据最有效的机器学习模型之一。在每个消息传递层中,GNNs 迭代地聚合邻居节点的消息,以更新当前节点的表示。这种范式在许多实际应用中取得了巨大的成功,例如搜索引擎 [2]、推荐系统 [3]、材料工程 [4]、分子性质预测 [5, 6],以及组合优化 [7]。
  具体地,以半监督的结点分类任务为例,GNNs 旨在通过最小化目标函数 来学习结点嵌入 以及参数 ,其中 , 是有标签结点的集合, 是参数为 的输出层与一个损失函数的组合, 是结点 的嵌入, 是结点 的标签, 是结点特征, 是图上所有边的集合。
  一个 层的 GNN 通过 次有着不同参数 的消息传递迭代来生成最终的结点嵌入 :
  其中 , 是第 层的消息传递函数,参数为 。
  消息传递函数 遵循聚合-更新机制,即
  其中 是为结点 的每个邻居生成消息的函数, 是将邻居消息集合映射到最终消息 的聚合函数, 是组合从前的结点嵌入 ,消息 ,以及结点特征 的更新函数。
  2.2 邻居爆炸
  尽管 GNNs 在许多应用中取得了巨大的成功,这种消息迭代机制也给 GNNs 在大规模图数据上的训练带来了挑战。
  使用有限的 GPU 内存将深度模型扩展到任意大规模数据的一种常见方法是通过小批量梯度近似全批次梯度。然而,对于图结构数据,由于众所周知的邻居爆炸问题,计算小批量节点的损失函数和相应的小批量梯度的成本是非常昂贵的。
  具体地,对于 GNNs 而言,一个结点在第 层消息传递中的嵌入递归地依赖于它邻居在第 层的嵌入。因此,计算复杂度会随着消息传递层数的增加而指数级上涨,带来无法令人接受的计算开销。
  2.3 子图采样方法
  为了解决邻居爆炸问题,最近的一些工作提出了各种各样的采样技术以减少消息传递所牵涉的节点个数。例如,结点采样方法 [8, 9] 和层采样方法 [10, 11, 12] 会在消息传递中递归地采样邻居,从而估计结点嵌入以及对应的小批量梯度。
  与这种递归的范式不同,子图采样方法 [13, 14, 15, 16] 使用了一种更为简单、成本低廉的一次性采样范式(one-shot sampling fashion)——为不同的消息传递层采样同一个子图,该子图由同一小批量结点所构建。
  通过丢弃小批量之外的消息,子图采样方法将消息传递过程限制在小批量中,使得复杂度随消息传递层数的增加而线性增长,极大降低了计算开销。此外,通过直接在子图上运行 GNNs,子图采样方法适用于非常广泛的 GNN 结构。由于上述优势,子图采样方法近期收到了越来越多的关注。
  然而,子图采样方法这种丢弃小批量外部消息的做法牺牲了梯度估计的精度,这给它们的收敛性分析和收敛速度带来了极大挑战: 首先,近期工作 [9, 17] 表明,不准确的小批量梯度会严重降低 GNNs 的收敛速度。  其次,我们的实验表明,现有子图采样方法在批量大小较小时难以达到全梯度下训练的表现;而我们在实际应用中经常会将批量大小设置为一个较小的数字,以避免超出 GPU 的显存。
  对此,我们发问:能否设计一个子图采样方法,它既有极低的计算开销,又有媲美全梯度训练的预测精度,同时还有严格的收敛性保证?
  我们的回答是:LMC 能做到!
  3. 方法:局部信息补偿 LMC
  我们的研究思路受到了 VR-GCN [9] 的启发,其主要抓手是把节点或层级别的递归采样看成一个无偏的基线方法——Standard SGD的近似,进而通过对于梯度的误差分析来证明收敛性。
  然而,很难把子图采样方法看成 Standard SGD 的近似,因为子图采样在每一层都采样相同的子图,每一层的计算都会引入不可避免的偏差。因此,我们第一步是先提出一个 Backward SGD,它更便于我们的分析子图采样这种一次性采样范式。在 Backward SGD 的基础上,我们分析如何给子图采样方法加入合适的补偿项,减少它的偏差,进而找到一个可证明收敛的子图采样算法。
  3.1 将反向传播建模为消息传递
  梯度 是容易计算的,所以我们主要介绍如何计算 。令 , 为辅助变量,则有 。由链式法则,我们能够基于 迭代地计算 :
  以及
  然后,我们可以使用处理向量-Jacobian 积的自动求导工具来计算梯度 。
  我们将反向传播(即迭代计算方程 (3) 的过程)建模为消息传递。为了看到这一点,我们只需注意到 (3) 等价于
  其中 是 的第 列。方程 (5) 分别使用 、求和聚合,以及恒等映射作为生成函数、聚合函数,以及更新函数。
  3.2 LMC 的基石:Backward SGD
  基于这一反向传播的消息传递建模,我们设计了一个 SGD 变体——Backward SGD,它能带来无偏的梯度估计。需要说明的是,Backward SGD 是我们主要方法 LMC 的基石。
  给定一个被采样的小批量 ,假设我们已经获得了小批量中结点的准确嵌入 和准确辅助变量 。读者需要注意:这一假设是比较强的,事实上我们很难计算准确的嵌入和辅助变量。下一节介绍的主要方法 LMC 所做的就是利用子图采样来估计结点嵌入和辅助变量。
  首先,Backward SGD 计算参数 的小批量梯度 :
  然后,Backward SGD 计算参数 的小批量梯度 :
  注意到:对于不同的层数 ,小批量梯度 牵涉的小批量是同一个(即 ),这就给基于 Backward SGD 设计子图采样方法提供了基础。
  Backward SGD 的另一个吸引人的性质是:小批量梯度 和 是无偏的,如第4节中的定理1所示。详细的证明请参见原论文附录。
  3.3 本地消息补偿 LMC
  在上一节中,Backward SGD 所计算的小批量梯度依赖于小批量中节点的准确嵌入和准确辅助变量,而不是整张图。然而,Backward SGD 仍然不是可扩展的(scalable),因为邻居爆炸问题会使得准确结点嵌入和辅助变量的计算极其昂贵,所以事实上我们无法得到准确的 和 。
  在这一节中,为了解决邻居爆炸问题,我们提出了新颖的子图采样方法——本地消息补偿(Local Message Compensation,简称 LMC)。
  LMC 首先通过不完全最新值(incomplete up-to-date values)和历史值(historical values)的凸组合来高效地估计 和 ,然后利用方程 (6) 和 (7) 计算小批量梯度。在之后的理论分析中,我们证明了 LMC 收敛到 GNNs 的一阶驻点。在算法1和理论分析中,我们用 表示一个第 层、第 次迭代时的量,而在其他地方我们省略上标 ,用 来表示。
  在每个训练迭代中,我们采样一个小批量结点 ,通过历史值 和 ,以及不完全最新值 和 的凸组合来高效地估计 和 。
  为便于读者理解方法的核心思想,我们将 LMC 与现有最先进方法 GAS [15] 的前向传播、反向传播计算图展示在图2。
  图2. LMC 与 GAS 前向传播与反向传播的计算图。可以看到,在前向传播和反向传播中,LMC 均进行了小批量结点与一跳邻居之间的消息交互(即补偿),而 GAS 在反向传播中丢弃了小批量之外的消息。  在前向传播中,我们将 的  临时嵌入 设为 ,然后以 的顺序更新 中的历史嵌入 。特别地,在第 层,我们进行以下计算:
  在反向传播中,我们将 的 临时辅助变量 设为 ,然后以 的顺序更新 中的历史辅助变量 。特别地,在第 层,我们进行以下计算:
  关于方法的具体细节、详细解释、计算复杂度分析等,请读者参见原论文。
  我们分别称 和 为第 层前向传播和反向传播的本地消息补偿。
  4.理论分析
  理论分析包含三个主要定理。从直观(说人话)的角度,它们分别在说: 定理1:Backward SGD 的梯度是无偏的。这样,我们就基本可以保证 Backward SGD 的收敛性。 定理2:LMC 所估计的梯度和 Backward SGD 的梯度相差不大,能够被我们给出的上界所控制。 定理3:LMC 收敛到 GNNs 的一阶驻点,这也是我们的最终定理。
  理论部分的核心思想是:LMC 和 Backward SGD 的收敛行为一致。
  在本节中,我们做如下假设: 在第 个迭代中,小批量节点 是从 中均匀采样的,对应的有标签节点集 是从 中采样的。  函数 , , , , , 是 -Lipschitz 连续的,其中 。  范数 , , , , , , , , , , , 被常数 所控制。
  定理1. 假设一个小批量 是从结点集合 中均匀采样的,并且对应的有标签结点集合 也是从 中均匀采样的,则方程 (6) 和 (7) 所计算的小批量梯度 和 是无偏的。
  定理2. 在上述假设下,令 和 ,存在 和 使得
  定理3. 在上述假设下,再假定最优值 被 控制。令 ,,以及 ,LMC 可保证在 次迭代后找到一个 -驻点使得 ,其中 是随机从 中选取的,。
  5. 实验
  在实验部分,我们做了4个大数据集的实验,图3列出了其中3个。LMC 的训练集 loss 的收敛速度超过了所有其他方法,但是测试集上有个众所周知的泛化问题,尽管 LMC 在训练集上收敛快,但模型很快就过拟合了,所以 LMC 在测试集的准确率曲线提升看起来并不如训练集明显。
  我们发现,LMC 最终的预测准确率和 SOTA 方法 GAS 相差不大,这是因为 early stopping 技术,即在训练过程中,测试集的曲线是震荡的,early stopping 汇报的大概率是测试集准确率曲线的最大值。为了突出训练过程中波动性的影响,我们在图3汇报的曲线用滑动窗口取了平均值构成实线,标准差构成阴影部分。可以看出,LMC 在训练稳定性上明显超过 GAS。GAS 和 LMC 最终预测准确率的差距会在 batch size 比较小的情况下有所体现(图6),这时 METIS 的作用会被削弱。
  图3. 收敛时间对比
  我们进一步统计达到一个给定测试集准确率的时间。我们先跑一个全梯度 GD,得到它的最高测试集准确率,然后再分别运行几种子图采样方法,计算达到这一准确率需要的时间。在 REDDIT 数据集上,LMC 相对于 GAS 的加速比达到2倍。
  图4. 达到最高测试集准确率时间对比
  更进一步,LMC 的梯度估计和 Backward SGD 差不多,所以梯度估计是更准确的。我们这里统计了计算过程中的相对误差,如图5所示,确实是 LMC 的估计误差最小。
  图5. 相对误差对比
  进一步做了 small batch size 下的实验,前面在子图采样算法中举了一个例子,子图规模很小的话,丢弃的节点就很多,很容易达到次优。如表三所示,我们的方法对 batch size 更加鲁棒,因此在计算资源受限的情景下,LMC的优势会更加明显。
  图6. 不同批量大小的表现
  最后是消融实验,相对于 SOTA 的 GAS 方法,我们对前向传播过程的补偿消息进行了改进,并且在反向传播也加入了一个补偿。如图7所示,我们发现,在batch size很小的情况下,反向传播的补偿很重要,因为这一 设定下,丢弃了很多消息,导致收敛到次优解。在batch size较大的时候,采样子图一阶邻居是很大的,我们通过采样子图一阶邻居内部的消息传递,提高了历史信息的准确率,也能提高子图采样算法的性能。
  图7. 消融实验
  参考资料:
  [1] Hamilton, William L. "Graph representation learning." Synthesis Lectures on Artifical Intelligence and Machine Learning 14.3 (2020): 1-159.
  [2] Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual web search engine." Computer networks and ISDN systems 30.1-7 (1998): 107-117.
  [3] Fan, Wenqi, et al. "Graph neural networks for social recommendation." The world wide web conference. 2019.
  [4] Gostick, Jeff, et al. "OpenPNM: a pore network modeling package." Computing in Science & Engineering
  18.4 (2016): 60-74.
  [5] Moloi, N. P., and M. M. Ali. "An iterative global optimization algorithm for potential energy minimization." Computational Optimization and Applications 30 (2005): 119-132.
  [6] Kearnes, Steven, et al. "Molecular graph convolutions: moving beyond fingerprints." Journal of computer-aided molecular design 30 (2016): 595-608.
  [7] Wang, Zhihai, et al. "Learning Cut Selection for Mixed-Integer Linear Programming via Hierarchical Sequence Model." arXiv preprint arXiv:2302.00244 (2023).
  [8] Hamilton, Will, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs." Advances in neural information processing systems 30 (2017). [9] Chen, Jianfei, Jun Zhu, and Le Song. "Stochastic training of graph convolutional networks with variance reduction." arXiv preprint arXiv:1710.10568 (2017).
  [10] Chen, Jie, Tengfei Ma, and Cao Xiao. "Fastgcn: fast learning with graph convolutional networks via importance sampling." arXiv preprint arXiv:1801.10247 (2018).
  [11] Zou, Difan, et al. "Layer-dependent importance sampling for training deep and large graph convolutional networks." Advances in neural information processing systems 32 (2019).
  [12] Huang, Wenbing, et al. "Adaptive sampling towards fast graph representation learning." Advances in neural information processing systems 31 (2018).
  [13] Chiang, Wei-Lin, et al. "Cluster-gcn: An efficient algorithm for training deep and large graph convolutional networks." Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019.
  [14] Zeng, Hanqing, et al. "Graphsaint: Graph sampling based inductive learning method." arXiv preprint arXiv:1907.04931 (2019).
  [15] Fey, Matthias, et al. "Gnnautoscale: Scalable and expressive graph neural networks via historical embeddings." International Conference on Machine Learning. PMLR, 2021.
  [16] Zeng, Hanqing, et al. "Decoupling the depth and scope of graph neural networks." Advances in Neural Information Processing Systems 34 (2021): 19665-19679.
  [17] Cong, Weilin, et al. "Minimal variance sampling with provable guarantees for fast training of graph neural networks." Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020.

不好意思,小米依旧全球第三,网友赚外国人的钱才算本事最近市场调研机构发布了2022年全球智能手机市场报告,从相关数据来看全球市场的整体表现不佳,同比下滑了11,特别是第四季度下滑了17,大环境不佳无疑对各个手机品牌都会产生冲击。在具36氪独家无性别服饰品牌bosie获1亿元B2轮融资,2023年希望轻装上阵文姚兰36氪独家获悉,无性别服饰品牌bosie已完成1亿元B2轮融资,投资方为个人投资者。bosie是36氪持续关注的品牌。创立于2018年,bosie至今已完成8轮融资,投资方不加州理工学院起诉苹果与高通侵权专利果粉之家,专业苹果手机技术研究十年!您身边的苹果专家近日,苹果因专利侵权面临着巨额罚款。这虽不是苹果第一次被起诉,但此前多是因违背某地法规而被告上法庭,而专利侵权这类事件并不多见。探秘宁国宝藏小店系列探寻喧嚣城市里的隐秘岛屿,享受微微摆动的咖啡时间忙碌的工作之余,生活的仪式感也十分重要。春节临近,何不出来与亲朋好友一起寻觅各种好吃好喝好看的宝藏小店?之后小编将开始宁国宝藏小店的探秘,喜欢的朋友们可以持续关注哦今天,先把私藏已历史第一次!上海与青岛完成球员交换区俊炫邵英伦互换东家北京时间1月18日,据青岛队官方宣布,球队和上海男篮完成球员互换,用邵英伦交换区俊炫。目前青岛队已向CBA公司提交相关材料。这是本赛季首次球员交换,同时也是职业联赛历史首次。邵英伦投在临港去年158家企业获逾230亿融资,集成电路领跑自贸区临港新片区滴水湖畔本文图片均为视觉中国资料图过去的2022年是上海自贸区临港新片区五个重要第一轮三年行动方案的收官之年。作为上海又一块冉冉升起的科技创新高地,集成电路医疗健康宇宙存在的意义宇宙的目的是什么呢?朝闻道人类建了一个超大粒子加速器爱因斯坦赤道,在即将启动它去探寻宇宙大一统模型的时刻,宇宙的排险者出现了,毁了加速器,他在告诉科学家们大一统模型的证明会带来宇宙骁龙888手机要换吗?小米11系列情绪稳定,MIUI14真的有效果说起骁龙888,很多人的印象就是能耗高发热大,因此骁龙888比较不受待见,那么现在都2023年了,是不是可以考虑将手里的骁龙888手机换掉呢?个人倒是觉得如果用的是骁龙888旗舰机政策粮投放市场节后麦价预期不宜过高因性价比优势明显,最低收购价及临储小麦溢价成交,但随着面粉企业停工停产,国内麦市购销趋于清淡。预计节后国内麦价整体走势不乐观,建议持粮主体紧抓销售时机,心理价格预期不宜过高。基于国最新政策公布!事关你的年终奖财政部国家税务总局1月16日发布公告明确延续实施有关个人所得税优惠政策支持企业创新发展和资本市场对外开放公告明确,财政部税务总局关于延续实施全年一次性奖金等个人所得税优惠政策的公告新华财经政策性开发性金融工具成扩大有效投资关键一招新华社北京1月17日电2022年下半年至今,一大批重大项目在神州大地上如火如荼地建设着。而这些项目的迅速开工加快形成实物工作量,一定程度上得益于政策性开发性金融工具(以下简称金融工
国民党战犯里宁坐25年牢也要效忠蒋的都是哪些人?哪个系统最多?国民党战犯被特赦作者兰台截止1975年,新中国依然在押的一共有293名国民党战犯,其中原国民党军官219名国民党党政人员21名国民党特务50名伪满战犯2名伪蒙战犯1名。而在19751951年,麦克阿瑟计划在中国投原子弹,毛主席对此如何回应?日本算是麦克阿瑟的福地,二战时期他是盟军西南太平洋战区的总司令,战后又被杜鲁门任命为驻日盟军最高司令,代表盟国接受日本签字投降。这个喜欢叼着大烟斗的西部牛仔,摇身一变成了日本人的太英国教授四大文明古国中,印度和埃及还在,为何却只承认中国?在历史的长河当中,四大文明古国一直占据着较为重要的地位。这四个国家分别是中国,古印度,古埃及以及古巴比伦。但是在现如今的国际社会当中,普遍只承认中国作为四大文明古国的地位,而古印度恐龙时代结束后地球巨兽依然层出不穷恐龙帝国的毁灭,其实并不是它们的问题,而是来自于天灾。一场距离今天最近的小行星撞击事件,将恐龙时代的大门关闭,随后的地球经历了几十万年的黑暗发展时期。但是地球的恢复能力相当强悍,当地球的位置是否已经暴露?科学家疯狂的举动,可能给人类带来危险天文学家阿尔伯特爱因斯坦数百年前,人类终于走进了科技发展的道路,迎来了辉煌快速的发展阶段。在科技的帮助下,我们有了天文望远镜,有了无线线信号传输设备,有了能够走出地球的火箭飞船等。如果一根针以光速撞击地球,会发生什么?地球会不会消失?综述宇宙中存在着很多种速度,其中耳熟能详的首先是光速,在人类的认知里大多都认为光速是最快的速度,其实不然,宇宙中还存在着比光速更快的速度,比如宇宙膨胀速度,还有爱因斯坦离开世界之前斯诺克16强产生12席!中国两人在列塞尔比晋级,金左手再战希金斯2021年10月14日,斯诺克北爱尔兰公开赛16强产生12个席位,多位名将顺利晋级,凯伦。威尔逊爆冷出局,中国选手还剩颜丙涛和吕昊天两人,鲁宁不敌特鲁姆普,田鹏飞输给墨菲。中国选手陈亚男夺权记大衣哥之子绝地反击?朱之文扮演的角色很复杂还记得大衣哥吗?就是那个一人得道,鸡犬升天,一个人带火了一个村儿的冤大头。他们家这两天,又双叒叕出事了,这次出事儿的,并不是朱之文,而是他儿子朱单伟的后院。是的,结婚才不到一年的老中国便利店之都拥有5000多家,饱和度超过深圳广州上海作为最贴近消费者工作生活的零售业态之一,便利店发挥着服务民生便利消费的重要作用,被誉为城市之光。目前,国内已有19。3万家品牌化连锁化便利店。到2022年,这一数字将力争达到30万为何美国苏联都不屑去,中国偏要成为登陆月球背面第一国?前言美苏冷战时进行的太空竞赛众所周知,美国和苏联在那个时期分别向月球发射了34个(失败7次,成功27次),47个(失败15次,成功32次)卫星,共计84个卫星。但令人奇怪的是,虽然网红姜涛直播自曝现状每日收入百元准备解散团队近日,曾在网络拥有超高热度,并凭借一笑成名的网红姜涛,在直播中面对广大在线网友,现场抱怨如今尴尬处境。姜涛称现在自己每天直播,而当天榜上收入加起来不足百元,直呼水电费如今都交不起。