网络性能总不好?网络调优专家AOE帮你来看看
本文分享自华为云社区《网络性能总不好?专家帮你来"看看"— CANN 6.0 黑科技 | 网络调优专家AOE,性能效率双提升-云社区-华为云》,作者:昇腾CANN 。
随着深度学习模型复杂度和数据集规模的增大,计算效率的提升成为不可忽视的问题。然而,算法网络的多样性、输入数据的不确定性以及硬件之间的差异性,使得网络调优耗费巨大成本,即使是经验丰富的专家,也需要耗费数天的时间。
CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是昇腾AI基础软硬件平台的核心。为了在提升网络性能的同时降低巨大的人工调优成本,CANN推出了自动化网络调优工具AOE(Ascend Optimization Engine),通过构建包含自动调优策略生成、编译、运行环境验证的闭环反馈机制,不断迭代,最终得到最优调优策略,从而在AI硬件上获得最佳网络性能。以ResNet50推理网络为例,经AOE调优后的网络性能提升100%以上,调优耗时不到30分钟。
针对网络模型,AOE分别提供了算子调优、子图调优与梯度调优的功能。其中算子调优,主要针对算子的调度(Schedule)进行优化,从而使得昇腾AI处理器的多级Buffer与计算单元形成高效的流水并发作业流,充分释放硬件算力;子图调优,通过智能化的数据切分策略提升缓存利用率,从而大幅提升计算效率;梯度调优主要应用于集群训练场景下,通过自动化寻找最优梯度切分策略、降低通信拖尾时间,从而提升集群训练性能。同时,AOE能够支持多种主流开源框架,在训练和推理场景下全方位满足不同开发者的网络性能调优诉求。
算子调优,提升计算节点执行效率1. 强化学习,生成Vector算子最优调度策略
AI处理器在计算过程中需要精心排布才能充分发挥算力,计算组件间的流水排布很大一部分由调度来承载,一个很小的调度操作映射到硬件行为上都可能产生巨大的差异。想要提升网络性能,势必需要为给定网络在指定设备上开发一套专属的调度逻辑。
网络的组成单元是算子,为算子执行寻找最优的调度策略是提升网络性能的关键。昇腾AI处理器的核心计算单元是AI Core,针对运行在AI Core上的算子,可以分为Vector与Cube两类,其中Vector算子主要负责执行向量运算,Cube算子主要负责执行矩阵运算。
针对Vector算子,CANN采用了RL强化学习(Reinforcement Learning)搜索框架,将算子调度过程抽象成了基于MCTS蒙特卡洛树搜索(Monte Carlo Tree Search)的决策链,并模拟人工进行决策,再通过和环境不断交互得到性能数据,作为反馈值指导下一步决策。通过此方法一步步改善自身行为,最终获取算子执行对应的完整最优调度策略。
经过AOE调优后的Vector算子,平均性能较调优前可提升10%以上,平均调优时间仅需200s,效率与性能都有较大提升。2. 遗传算法,提高Cube算子搜索效率
我们知道在深度学习网络中包含了大量的矩阵乘计算,而这部分计算在昇腾AI处理器中均通过Cube算力来承担,因此Cube算子作为重型算子,在网络中的影响权重较大,所以针对Cube算子的性能提升会给整个网络的性能带来较大的收益。
通过强化学习模式的搜索,我们已经可以做到解放人力进行Vector类型的算子优化,因为Vector算子的计算Buffer单一,调度算法可以基于各种Schedule原语为算子构建完整的调度策略。而Cube算子涉及多块片上Buffer之间的数据交互,如果按照和Vector算子相同的调优方式,可能最终会因为搜索空间过大导致搜索效率低下和搜索策略不佳的结果。
针对Cube算子,AOE以Schedule模板为基础,利用GA遗传算法(Genetic Algorithm),通过选择、交叉、变异等方式对影响最大的Schedule原语参数进行多轮调优,从而得到候选Tiling集,再根据在真实环境编译执行的性能反馈数据将候选策略进行排序,得到最优策略。
以卷积算子为例,若人工调优,需要消耗一个算子优化专家两天的时间;若使用AOE智能调优,平均仅需3分钟即可达到相同甚至更优的性能优化效果,极大地节省了人力成本!子图调优,获得更智能的数据切分
算子调优已经使得网络性能有了可观的提升,但AOE并没有止步于此。AOE在更宏观的粒度上加入了子图调优,从而实现更智能的数据切分。
深度学习模型的计算往往有较大的数据吞吐,数据读写往往成为网络性能的瓶颈,因此对于高速缓存利用率的提升成为计算效率优化的关键手段。
昇腾AI处理器中包含了高速缓存以降低外部访存的带宽压力,然而由于特征图(Feature Map)和模型参数的数据量巨大,会导致算子计算过程中的Cache命中率较低,影响整网计算效率。为了更好地提升高速缓存Cache命中率,AOE引入了子图调优的概念。
子图调优,基于算子切分数学等价原则,根据硬件Cache大小、算子shape等信息,将网络模型中的算子切分成多个算子,然后编排切分后算子的执行顺序,通过获取最佳的性能反馈,确定计算图切分策略和执行顺序。这样,就可以将一次性的数据流计算分解成多次进行执行,在分解后的数据流分支上,数据大小相比之前成倍递减,进而实现了Cache命中率的显著提升。
最终,在算子调优和子图调优的共同作用下,使用AOE进行性能调优后,主流推理网络的平均性能提升30%以上。以ResNet50推理网络为例,性能较调优前提升超过100%,整网调优耗时30分钟以内。梯度调优,提升集群训练性能
大规模集群训练场景中,存在着计算节点多、梯度聚合过程复杂、通信开销大的痛点。梯度聚合过程和计算过程怎么更好的一定程度上相互掩盖,让整个过程保证较好的线性度,也是性能提升的关键问题。为此,AOE引入了梯度调优的功能,通过智能梯度切分算法,自动搜索出最优梯度参数切分方式,为梯度传输选择合适的通信时机和通信量,最大限度让计算和通信并行,从而将通信拖尾时间降至最低,促使集群训练达到最优性能。
相对人工调整梯度聚合数据量,自动梯度调优可以将梯度聚合数据量调参时间从数人天缩短至数十分钟,一举获得最优聚合策略,降低人工调参的不确定性。AOE通过调优知识库记录模型调优经验,使得模型聚合策略能够动态适应不同集群规模。
经过AOE调优后,主流训练网络在昇腾AI处理器上执行性能较调优前平均提升了20%以上。以ResNet50训练网络为例,性能较调优前提升了23%,整网调优耗时2H以内。写在最后
昇腾异构计算架构CANN始终致力于提供"开放易用、极致性能"的AI开发体验,不断降低AI开发的门槛与成本。CANN提供的昇腾调优引擎AOE克服了传统调优方法耗时长、泛化性差、维护成本高等影响开发效率和可用性的弊端,为AI开发者提供了更智能化的性能优化手段。
以梦为马,未来可期,相信通过CANN的持续创新与不断演进,定将进一步释放AI硬件的澎湃算力,加速AI应用场景落地,共建智慧世界。
点击下方,第一时间了解华为云新鲜技术~
华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云
#华为云开发者联盟#
施华蔻染发剂混合后能放多久,染发剂过期了还能用吗?还没开封施华蔻染发剂混合后能放多久半天。混合好的染发剂尽量一次用完,超过时间未使用,就会发生变质,失去原有的效果。并且混合后的染发剂已经发生了化学反应,继续放置会和空气接触氧化,若是使用,
赵露思宋茜都是小香控?2022早秋新款值得拥有,一秒击中少女心了提到Chanel你会想到什么呢?是清雅又自带香气的山茶花,还是经典又优雅的斜纹软呢,又或者是极具辨识度的双C标志作为最富知名度的顶级奢侈品牌之一,Chanel可以说是众多女生的梦想
BalletFlats再掀芭蕾舞鞋热潮本季的各时装周中,各大品牌都能找到芭蕾舞鞋BalletFlats的身影,并迎来各种新变化Balletcore令一双简单实穿兼具优雅的芭蕾舞鞋成功挤身Itshoes宝座。Miucci
景甜晒出游照,白色针织开衫搭牛仔裤,戴编织帽好甜美头条创作挑战赛国庆假期大伙儿有没有出去玩儿呀?出门旅游一定会拍摄很多游客照吧?想要定格假期的快乐时光,漂亮的穿搭造型肯定少不了。穿着漂漂亮亮的服饰,不仅心情会更好,拍出来的游客照也
狗喂不饱,人讨不好(太现实!)知乎上有个热门问题人生在世,走过很多路,见过很多人,有哪些道理后悔没有早点知道?有人说善良是要有底线的,否则伤害的只能是自己。有人说真心要留给懂珍惜的人,单方面的付出是没有结果的。
秋水洗心安如芷若你最爱的是哪个季节秋水洗心安如芷若文云姿秋雨绵密,秋意又向深走了几分。雨一直下。云层凝结的厚重饱满,轻雷一震,就是急流直下的飞瀑。大颗的雨点砸下来,带着些分量,季节的情绪有点儿激烈
不抱怨,才能过得好文一藻简奥斯丁说不抱怨者永远都不会变得可悲。抱怨如同诅咒,越抱怨越糟糕。生活是面镜子,照出灵魂深处的你我。不抱怨,让灵魂变得干净而轻盈,让生活变得纯粹而美好。不抱怨,路越走越宽尼采
人生陷入贫穷时,以下几件事,不要对别人说文夏莫01卷首语贫穷,是一种人生状态。就像是走路,跌了个大跟头。伤痕累累,疼痛难忍,可最终还是要站起来,给自己疗伤,勇敢往前走。每个人都会遇到生活的挑战,也许会失败,也许会变得一无
女人在三方面越简单,越容易被异性高看图源自网络侵权请联系删除人生最难的并不是拿得起,而是放得下。年轻时的我们要主动或被动拿起很多东西,但是活到一定年纪,一定要懂得放下,尤其是人到中年以后,人的承受能力变得越来越有限,
超赞的反向旅游,打开了度假的另一种风格朋友们,这个国庆出家门了吗?我的计划本来是在家瘫七天,笑看出去旅游的人堵成狗。比如看高速路上,司机被堵到开始淘米煮饭了。堵到可以遛狗了。这类节目,能让家里的我暗爽好几天。但今年这才
华国锋主动辞去军委主席,临终前留下12字遗言,催人泪下1976年1月8日,敬爱的周总理逝世,毛主席得知消息后悲伤不已,独自在沙发上沉默许久,悲伤中的毛主席此时还在考虑一个问题,谁来接替担任总理呢?经过几天的思考之后,毛主席做出了一个决
唯一的共同点,刘邦和项羽公元前202年,长达四年的楚汉争霸结束了,西楚霸王项羽,经历了泪别虞姬,四面楚声,不渡乌江,最终死于垓下,年仅31。而汉高祖刘邦自建立了大汉王朝,由于剿灭异姓王英布,在亲征期间被英
爱新觉罗氏竟是赵匡胤后代?大宋是大清的祖宗?这到底是不是真的引言清朝作为中国历史上最后一个封建王朝,其本身也存在诸多为人们所争议的问题。有些人认为清朝这个时期算得上是奠定了现在中国版图的基础,也有一些人认为清朝的存在让中国的发展受到了巨大的
去有风的地方许红豆不知道她的没资格痛苦是因为太愧疚30多岁的许红豆面对闺蜜的骤然离世,无法释怀,她不敢表露太多伤心,太多痛苦,因为她觉得自己没有资格。1没有资格痛苦最好的朋友,她的离开对我的生活来讲,也没有任何的改变啊,我还是一样
中国最美的15个地方中国幅员辽阔,东西南北分布着多样的景观,包括山河湖草原森林梯田和静镇。但是,对于游客来说,选择其中一些作为旅游目的地可能并不容易。好吧,我们推荐美丽的地方,如色彩缤纷的九寨沟国家公
市民问政记者调查惠民迎新春,市民期待更多免费游来源金华日报金华新闻网金华新闻客户端1月14日消息记者张海滨文摄随着金东区施光南音乐广场上福满金华主题花灯的试亮灯,我市的春节氛围越来越浓。惠民迎新春,我市准备了哪些优惠活动?市民
再添一个国家级!四川这个地方上榜日前在新公布的15家国家级旅游度假区中宜宾蜀南竹海旅游度假区上榜!这是本次四川省唯一入选的旅游度假区奇篁异筠的竹景翠甲天下的竹海一起来到蜀地川南与竹共舞吧图源视觉中国位于宜宾市长宁
劳塔罗闪击,国际米兰一球小胜维罗纳文羊城晚报全媒体记者刘毅世界杯上的阿根廷前锋劳塔罗和国际米兰的劳塔罗,仿佛是两个人。北京时间1月15日凌晨在意甲第18轮比赛中,劳塔罗闪击进球,帮助国米在主场以1比0小胜排名倒数第
利拉德今晚我们取得大胜要归功于全队流畅的分享球今日,NBA常规赛开拓者136119击败独行侠。赛后,开拓者球星利拉德接受了记者采访。利拉德谈到了球队本场比赛有34次助攻我们绝对有能力打出这样的比赛,我们本赛季开始就这么打球了,
2换1!火箭为了补强控卫,戈登要离开火箭了火箭队遭遇国王双杀,迎来了一波八连败,牢牢的锁住了全联盟垫底的位置。上赛季火箭队取得了20胜62负的战绩,从目前的情况来看火箭本赛季的战绩也不会好到哪里去。但是即使火箭连续三个赛季
哈姆AD做了半场轻量训练,里夫斯沃克还需通过一两项测试湖人主帅达尔文哈姆在今日训练后接受了采访。当被问到安东尼戴维斯是否开始了全场训练,哈姆说不,他只是进行了最轻量的训练,他做了半场训练。不过,他的移动情况很好,他感觉不错,我们也很兴
窗外窗外纷纷掠过的是一串串的日子转瞬之间明天变成了今天今天又成了昨天不曾停息日复一日再过几天又是一年即使我们悠闲地睡着懒觉亦或是优雅的品着茶或者是日以继夜在劳作时光的列车每时每刻搭载着