大数据联合计算之联邦学习解决联合建模的数据隐私问题

　　本文根据＂AI+产业发展高峰对话暨国泰汉口科创中心开园仪式＂上武汉大学计算机学院教授、博导 叶茫分享的主题报告《大数据联合计算之联邦学习》整理完成。
　　本文看点：
　　01 当前AI的瓶颈
　　02 联邦学习：解决联合建模的数据隐私问题
　　03 联邦学习的应用场景介绍
　　04 联邦学习在研究层面上的局限性
　　嘉宾简介
　　叶茫，武汉大学计算机学院教授、博士生导师，国家级高层次青年人才，中国科协青年托举人才。2019年于香港浸会大学获博士学位，曾任阿联酋起源人工智能研究院研究科学家和美国哥伦比亚大学访问学者。主要研究方向计算机视觉、可信人工智能等，发表国际期刊会议论文 70 余篇，其中第一/通讯作者发表 CCF-A 类论文30 余篇，引用者包括图灵奖获得者 Geoffery Hinton，Yann Lecun 等。担任国际 SCI 期刊 Journal of Electronic Imaging 编委，人工智能顶级会议 IJCAI 专题主席等学术职务。主持国家级青年人才项目、湖北省重点研发计划、国家自然科学基金面上项目等科研项目。获得国际计算机视觉顶会 ICCV2021赛道冠军、2021年斯坦福排行榜 ＂全球前2%顶尖科学家＂、2022年百度AI华人青年学者等荣誉。
　　（正文4700字，10-12分钟）
　　随着AI的发展，在很多应用场景下AI可以做到非常高的准确率，但是随之而来的安全性、隐私性的问题引起了大家的重视，联邦学习由此诞生。
　　01 当前AI的瓶颈
　　1、封闭世界模式
　　AI在很多任务上已取得了非常好的效果，但它们主要基于封闭世界模式。封闭世界的特点是：任务单一不变，人类设定；边界给定；可能性有限。比如几年前人工智能打败人类最伟大的棋手。
　　而最近比较火的AI应用主要面向开放世界模式，典型的应用场景是无人驾驶，无人驾驶所处的应用场景相比于之前围棋的封闭世界而言有以下几个特点：（1）任务多变，无人驾驶所要解决的任务非常复杂，它需要感受路边各种事、人物以及车辆和周围的环境。（2）环境不确定性，比如有时是在市区比较拥挤的场景，有时是在郊区比较单一的场景。（3）不可预见的可能性，很多时候自动驾驶的场景里面会出现突发的情况，比如说有人突然横穿马路。以上是当前AI从封闭世界到开放世界模式所面临的诸多挑战之一。
　　2、过度依赖大数据
　　在假设的理想世界环境下，我们拥有非常大量的数据，数据质量足够好，并且数据种类，特征值比较完备，现在很多图像分类、人脸识别任务都是基于这一潜在假设。但在很多应用场景里面，比如医疗的应用场景，总会面临着小数据AI模型构建的问题，这就导致了以下几个挑战：
　　第一，样本比较少，很难搜集足够多的训练样本，特别是比较专业的疑难杂症。
　　第二，在真实世界中进行数据采集和标注时，不可避免带来噪声的问题，如何构建对噪声鲁棒的AI模型非常重要。
　　第三，数据种类杂乱。比如医疗应用场景的数据类型非常多，不仅有年龄、性别、出生地点等基本数据，还有图像数据（比如CT影像数据），还有医生的经验数据，这里面所涉及到数据类型复杂多样。
　　最后是特征值缺失的问题，很多时候构建AI模型，训练学习的时候有大量的样本和数据，虽然我们可以假设所需要的数据都可以得到，但是在很多实际测试环境中数据是缺失的。
　　3、过度依赖中心化数据
　　中心化数据简单来讲就是样本足够多，并且样本质量好、方便处理，这是大家最喜欢的范式。比如不同的机构、医院把数据都汇集到云平台，大家联合训练AI模型，可以得到比较好的模型。但在真实场景中，数据是多元散落在各地的。这种时候数据来源不同，数据源的属主不同、利益不同，大家无法直接共享自己的数据，就不能构建大规模中心化的数据平台。另外，各方机构所采集的数据因为设备差异，通信环境等各种因素的影响，数据格式、质量、特征会不同，数据变化也比较大。
　　02 联邦学习：解决联合建模的数据隐私问题
　　随着国内外的数据监管法律趋严，如何构建AI模型变得更加具有挑战性。联邦学习便是在这种环境下诞生的技术。联邦学习是一种分布式机器学习技术，核心思想是在多个数据源共同参与模型训练时，不泄露原始数据的前提下，仅通过交互模型中间参数进行模型联合训练。简单来讲就是，我们之前在中心化大数据平台下进行的分布式学习，是所有人把数据汇集在一块，大家进行联合的AI模型构建。而联邦学习解决在数据没有办法共享情况下联合学习建模的问题。所面临的挑战主要是三个方面：
　　第一，如何保护隐私。即保护数据不出域，每个用户的数据停留本地，以及在模型参数交互的过程中涉及到隐私泄露问题，进行更严格的隐私保护是联邦学习要解决的重要挑战。
　　第二，如何提高效率。联邦学习的出发点是数据没有办法直接共享，不同企业通过网络的形式上传模型的反馈，这时候就会涉及到交互的问题，会严重影响它的效率，相比于前面提到的中心化大模型的训练有极大的受限。
　　第三，如何进行联合建模。不同的机构数据不一样，数据类型、优势不一样，如何发挥各方面的优势，去构建更好的联邦学习模型也是值得探讨的。
　　联邦学习主要的应用范式是＂数据是可用不可见，数据不动模型动＂。即联邦学习可以使用这些数据的反馈，但是不能直接获取到这些数据。并且数据全部停留在本地，不上传服务器，只上传针对模型的反馈，以实现不同机构的交互。
　　联邦学习的目的是各个边缘设备（客户端）联合训练一个好的机器学习模型，同时保护数据隐私（数据不共享）。传统分布式中心化集体学习的范式，每个机构把数据全都上传到服务器云平台，然后在服务器大云平台上面训练好的AI模型。而联邦学习的所有用户数据停留在本地，不上传数据，只上传模型的反馈，通过服务器对模型的反馈参数进行操作以训练更优的模型。
　　它的优势是： 减少网络传输的压力。传输网络模型参数和反馈，而非原始数据，因为比如有些视频数据的数据量非常大，直接传输数据带来很大的网络压力。 保证自有数据不出域，达到隐私保护的目的。 快速学习数据。传统分布式学习需要大家同时在线，把数据上传到服务器。而联邦学习是每个客户端都有数据和模型，一个客户端收到了新数据可以进行独立的本地更新，不跟其他客户端进行交互，也可以选择跟在线的客户端进行交互，这样可以得到更优的模型，是一种非常灵活的方式。
　　03 联邦学习的应用场景介绍
　　1、联邦学习赋能智慧医疗
　　联邦学习使机构间可以跨地域协作而数据不出本地，多方合作建立的预测模型能够更准确地预测癌症，基因疾病等疑难病。比如前一段时间很多公司开发了多地联合的新冠肺炎的智能诊断，考虑到病人信息的隐私性，很多医院机构不愿意把自己的数据直接上传到中心化的平台，这时需要给各个医院一个模型，使医院的数据在这个模型上反馈，针对模型的反馈去进行联合学习，得到更优的健康预测的模型或智能诊断的模型。应用案例：电子病历相似性搜索、病人表征学习、社区特异性模型、预测健康风险。
　　2、联邦学习赋能智慧安防
　　AI安防的两大痛点：数据不够多元，且特别封闭；缺乏优质数据，算法不够精准。AI安防的应用场景非常多变，人脸识别已比较成熟，但是更多是对人的识别，包括步态识别等。要得到更优的模型，需要采集足够多元化的数据，把他们聚合在一块，覆盖所有的场景，这显然不太现实。所以更常见的方式是采集一些数据，这种数据量非常大，把所有的数据放在一起进行联合训练。这里会涉及隐私以及网络传输的压力，联邦学习可以进行在线模型更新和反馈；无需集中传输数据；进行数据保护，隐私性高；共同建模、共同进步。
　　3、联邦学习赋能自动驾驶
　　联邦学习有助于打破车路协同的数据孤岛，建立高效局域车联网，降低车载数据等隐私泄露风险。自动驾驶涉及到用户愿不愿意把自己让行驶数据、驾驶数据等被采集上传到服务器，很多时候大家是不愿意的，如果我们都不上传数据，自动驾驶就没有办法得到更优的模型。联邦学习可以让所有的用户数据停留在本地，只给予用户一个模型来让用户进行反馈，这样大家就可以进行联合建模，得到更优的自动驾驶模型，同时保护了用户数据隐私。对于未来数据监管越来越严格的情况下，联邦学习是自动驾驶模型训练的解决思路。
　　04 联邦学习在研究层面上的局限性
　　1、异构联邦学习
　　现有的联邦学习大多基于同构假设，但是模型结构、数据分布、硬件设备、通信网络均存在差异性。首先是模型异构（参与者的模型结构不同）。比如银行或者医院有自己的商业利益和优势，不能把模型设计的细节共享出来，所以很有可能模型设计不一样，这是联合的机器学习会面临的极大挑战。第二个是数据异构（不同参与者数据分布差异大）。不同机构数据差异非常大，甚至数据类型都不一样，而现在联邦学习都是假设数据类型比较固定，相对统一。另外，硬件设备的不同及通讯环境的差异也会给异构联邦学习带来挑战。比如不同人用的手机计算能力不同，有的人的手机计算能力比较好，可以用比较复杂的模型；但另一些人用的手机计算资源比较有限。不同的通信环境(比如用WiFi、2G/3G/4G/5G)在上传模型反馈时，也会存在不同的延迟和滞后。
　　2、可信联邦学习
　　前面提到的所有联邦学习主要解决的点是基于数据不出域，即数据停留在用户本地。但当我们进行模型反馈和交流的过程中，模型的参数、梯度都涉及到隐私泄露的风险，如何实现更加安全可信的分布式联邦学习是值得研究的。这里引用杨强院士所概括的：可信联邦学习是安全可证明，性能可使用，效率可控，决策可解释，模型可监管以及普惠的。也就是说首先在隐私保护的前提下，我们要提升模型的性能，保证算法的效率，这样才能使得模型是可用的。同时，模型的可解释在医疗应用的场景尤其重要。
　　3、公平性联邦学习
　　联邦学习的出发点是我们要共同进步，共同受益。但在联邦学习中参与者各方数据量不一样，原始的模型性能也不一样，这将导致在联邦学习之后有的机构模型性能可能从90%提升到91%，仅提升1%；也有的机构原始模型性能不好，只能做到20%，经过联邦学习之后做到80%。如何平衡联邦学习之后各方收益，保证联邦学习的公平性，也是非常值得思考的问题。
　　—END—

王一博声明被打脸？声称完全不认识李某某，却被扒出两人同框视频近日，当红流量明星李某某轰然塌房，警方通报称李某某对多次嫖娼的违法事实供认不讳，现已被依法予以行政拘留，这件事情引起了很多网友的关注。然而让人意想不到的是，一波未平一波又起，在李某新瓶装旧酒，功率依旧是27W，苹果iPhone14ProMax兼容性评测前言有科技春晚之称的苹果秋季新品发布会于2022年9月8日凌晨1点准时召开，此次发布会带来了全新iPhone14系列，重塑的AirPodsPro以及三款新AppleWatch。全新近期好评如潮的无短板手机大盘点，游戏影像两不误，性价比超高游戏与影像只能2选1？除了各手机厂商的旗舰手机之外，当下的手机用户对主打性能释放的次旗舰要求也越发苛刻，除了需要以性能为基础的游戏表现之外，更想要进一步体验以往在高端旗舰才能搭载的制裁失败，欧盟又对俄罗斯低头，果断放弃出台天然气限价令据悉，本月初G7集团通过了对俄罗斯能源产生重大影响的限价政策，规定各国在采购俄石油时必须按照最低比例，实际上就是限制了他们从俄罗斯购买石油的渠道。该政策采用赌的方式一方面掐断俄罗斯中秋晚会新一辈主持人表现平平！想成为下一个董卿汪涵还要加把劲今年的中秋晚会，不论是央视还是地方台，办得是相当不错既宣扬民族团结传承之风，生活有苦有甜，我们既有人世间，也会有隐入尘烟，更有盛世之下的隐隐硝烟，保卫国家，守护我们的军人，疫情的逆长得像陈坤，和杨紫恋爱过，杨俊杰为何就是不红？文思琦最近，一部由连奕名执导的武侠剧飞狐外传火遍了全网。该剧中，秦俊杰饰演的胡斐刚出场便充满侠气，演技丝毫不显稚嫩。作为金庸笔下的重要IP，饰演过胡斐的演员不在少数。诸如孟飞黄日华ampampquot艰难上位ampampquot徐帆被王志文扫地出门，容忍冯导绯闻，养女神似丈夫我们家人反正是男的不吃亏你让他占便宜就占呗别看徐帆口口声声说着愿意让冯小刚占别的女人便宜实际上她才是辣手摧花的典范某活动上冯小刚伸出手想要搂住眉目传情的杨采钰徐帆眼疾手快横插一脚脚郝蕾与邓超爱得死去活来，两段婚姻失败后，如今咋样了？郝蕾是华语电影界为数不多的，才华和所获得的荣誉不匹配的女演员之一。她的代表作有十七岁不哭白银帝国浮城谜事情满四合院少年黄飞鸿等等，虽然郝蕾塑造角色不少，大家提及最多的却是当年颐和园旷世大战，一触即发！暗黑破坏神不朽暗夜孤堡！来了经典暗黑IP正版手游暗黑破坏神不朽，承袭暗黑系列前作的经典画风，以暗黑哥特美学和精致细腻的游戏画风，流畅的游戏操作等优点，成为了风靡全球的爆款手游。这一次，暗黑破坏神不朽再度迎来了机构8月王者荣耀全球吸金超2。22亿美元，蝉联手游畅销榜冠军9月16日，SensorTower商店情报数据显示，2022年8月腾讯王者荣耀在全球AppStore和GooglePlay吸金超过2。22亿美元，蝉联全球手游畅销榜冠军，其中来自中不懂避嫌别当演员，当众揩油伸咸猪手，活该被评为反面教材娱乐圈明星的品质贵在懂得避嫌，像易烊千玺，吴京，沙溢，任嘉伦等人。他们专注拍戏，感情专一，没有绯闻，被观众喜欢并尊重！他们出席活动从来不与女演员开玩笑，手臂放在该放的位置。可见，这

<<<<<<－>>>>>>

武桐桐无缘新赛季！山西女篮很受伤本报讯（记者杨尔欣）11月1日，山西女篮队长武桐桐完成左膝手术治疗，她将因此缺席新赛季WCBA联赛。10月1日，在2022年女篮世界杯决赛中，中国女篮荣膺亚军。武桐桐此役发挥出色，TVB又出一部9。1分剧！上车家族再塑台庆剧口碑剧能说TVB今年台庆剧中最小成本制作的上车家族于10月17日开播后，给观众带来了新惊喜豆瓣开分9。1分，目前更新到14集，分数依然未跌（全剧共20集）。在开播前，上车家族无论题材还是阵容夜读丨人生的意义，在于不断重塑自己绿标收听朗读音频文樱桃孔子说君子不器。真正的君子，不会像器物那样，作用局限于某一方面。这是他在教导弟子们，做人不能狭隘，做事不可拘泥，不可故步自封。应放开眼界，放大格局，不断重塑自新的开始，希望不一样的明天任何一个你不喜欢又离不开的地方，任何一种你不喜欢又摆脱不了的生活，就是监狱。如果你感到痛苦和不自由，希望你心里永远有一团不会熄灭的火焰。不要麻木，不要被同化，希望命运需要你逆风飞翔人生的路，靠自己一步步走去，真正能保护你的，是你自己的选择八卦手册人生的路，靠自己一步步走去张昌平人生的路，靠自己一步步走去，真正能保护你的，是你自己的人格选择和文化选择。那么，反过来，真正能伤害你的，也是一样，自己的选择。只要路是对的，人生感悟迷失的梦头条创作挑战赛太原头条80后的回忆岁月的洗礼，刻满沧桑的脸，匆忙的脚步，拖着疲惫的身体，满头的白发，轮罩着颓废的你。曾经风华正茂意气风发的我们，什么时候开始变得失去了光彩？曾经的朋海外中国人的最大痛苦当迈出国门的那一霎那，每一位游子绝不会明白，很快，他们要为迈出的这一步而付出昂贵的乡愁。乡愁是一座悲欢离合的航空港，是手机里发出的一封封短信，是久久不愿放下的越洋电话。每一天，望着宋志平科技创新的底层逻辑值华中科技大学70周年校庆之际，10月6日下午，第十四届华中科技大学企业家论坛开幕。中国上市公司协会会长中国企业改革与发展研究会会长宋志平受邀参加。宋志平结合自身企业实践和思考，作和男友吵架后，他竟然这样哄我？！被这些操作秀到了两个人在一起久了吵架在所难免吵架之后，还不低头认错？很有可能会面临分手认错的方式有很多种大多都是送个礼物发发红包啥的然而今天这些认错方式好像有点不太一样这都不能说是台阶了这简直是一打破思维的壁垒真正拖垮你人生的，是自我限制哲学家叔本华曾说过世界上最大的监狱，是人的思维意识。因为思维意识决定一个人的上限，它能让人快速前进，也能让人举步维艰。而这其中，能决定一个人能走多远的，就有工程师思维。何为工程师思等待与希望，快乐与痛苦都是我们需要的情感世界上并无所谓的快乐，也无所谓的痛苦。唯有两种处境的比较罢了，唯有经历过最大厄难的人，才能真正感受到幸福的所在。尽情享受生命的快乐吧，永远记住，在上帝解开人类未来的图景前，人类的智