范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

苹果M1更适合强化学习?比V100性能提升200价格低90,功耗减88

  机器之心专栏
  作者:南栖仙策
  M1 芯片能否提升强化学习的训练效率?
  2020 年底,苹果发布了 M1 芯片,提供了全新的自研 GPU,并和 CPU 集成封装成 SoC,加上随之而来的 ML Compute 框架,macOS 端的深度学习训练有了显著的速度提升。
  另一方面,强化学习的特性使得训练过程中需要交替使用 CPU 和 GPU,对此,M1 芯片能否提升强化学习的训练效率?据了解,此前业界并无相关测试数据。
  南栖仙策(南京大学人工智能创新研究院技术孵化企业)算法小组用 M1 芯片设备组建小型服务器集群,并与基于 NVIDIA GPU 的传统服务器进行性能对比测试,结果表明,强化学习的训练效率可以得到显著提升。
  什么是强化学习
  强化学习(Reinforcement Learning, RL),又称增强学习,是机器学习的范式和方法论之一。强化学习智能体(Agent)在与环境的交互过程中,通过更新策略以达成回报最大化或实现特定目标。
  广为人知的人脸识别等技术背后的深度学习,通常需要开发者准备大量做好标注的图像作为训练数据。
  强化学习与之不同,不需要训练数据,而是设置一个环境。类似于动物处在自然环境中,强化学习需要不断与环境交互,并从中学习。强化学习研究常用的环境是各种各样的游戏。
  强化学习方法简单、有效且通用,在许多游戏环境中都取得了超越人类的决策水平,被 DeepMind 认为是实现通用人工智能的一种重要途径。
  强化学习是怎么训练的
  图 1 强化学习示意图
  如图 1 所示,在强化学习中,智能体与环境的交互,即在状态 S_t 下,执行动作 A_t,获得对应的奖励 R_(t+1) 并观测到下一个时刻的状态 S_(t+1)。智能体的目的是改进策略(即在不同状态下执行的动作),来获得最大的长期回报。在这个过程中,强化学习智能体按照当前策略(通常用神经网络实现)需要将当前状态 S_t 输入到网络中,进行一次前向推理(inference)得到 A_t,使用 A_t 在环境中执行一步来完成交互。此时,智能体会收到对应的奖励和下一个时刻的状态,然后不断循环该过程,产生新的样本用于策略训练。样本指的是交互过程中的每一个转移(transition),即四元组。
  通常来说,强化学习中环境执行动作的这一步由 CPU 完成,当策略网络仅输入一个样本时,可以使用 CPU(对于浅层的策略网络)或 GPU(对于深层的复杂策略网络)进行推理,而更新策略网络模型则在 GPU 上完成。常规强化学习任务(以 Atari 游戏为例)通常需要采集十数 M( 1M 即一兆,为 10^6) 乃至数十 M 样本才能训练好一个策略,那么就需要数千万次,甚至数十亿次的交互。如果能减小时间开销,那将会给强化学习的训练速度带来前所未有的提升。
  M1 芯片特殊之处
  M1 架构
  新的 M1 架构采用了台积电最新的 5nm 技术。M1 处理器中有 1 个 CPU, 1 个 GPU, 1 个神经引擎以及 DRAM 单元。由于 RAM 内置在处理器中,因此所有组件都会访问相同的内存。这意味着不会再因为将内存从一个组件移动到下一个组件而造成性能损失,无需再尝试弄清楚你的模型是否符合 GPU 的内存规格。
  CPU
  M1 芯片的 CPU 是 8 核 CPU,其中 4 核是用于数据处理和一些需要高性能任务的高性能内核,另外 4 核被称为「e 核」或高效内核,提供更高的处理效率和更低功耗的任务。
  简单来说,M1 芯片不仅靠 5nm 制程使处理性能更加强大,而且里面新增的 NPU 也使 M1 更加聪明。该 NPU 采用 16 核架构,每秒进行 11 万亿次运算。M1 芯片使用共享内存,CPU 与 GPU 通信开销小,使用 Thunderbolt ,通信速度最高可达 40Gb/s,突破了限制瓶颈,可使用多台机器组建小型服务器。
  南栖仙策使用四台 M1 的 Mac mini 组建了小型集群
  Apple M1 集群性能测试
  测试设置
  M1 (单机) :使用 M1 Mac mini 单机训练;
  M1 集群 (4 机):4 台 M1 Mac mini 组成集群进行训练;
  GPU 服务器 (单机 V100×1):使用 NVIDIA V100 单 GPU 训练,选择第一张卡;
  GPU 服务器 (单机 V100×4):单机使用四块 NVIDIA V100 进行分布式训练;
  CPU 服务器: 使用 V100 服务器的 CPU 进行训练。
  环境:Pendulum、MountainCarCont、HalfCheetah
  算法:PPO, 共采集 100 次数据进行 PPO 训练,每次训练前与环境交互采集 10K step 的轨迹放入 Buffer 进行训练。SAC, 训练 100 个 Epoch,每个 Epoch 与环境交互收集 1k step 放入 Buffer。
  测试结果
  由于目前 Tensorflow 2.4 的 Eager 模式不能调用 M1 芯片进行训练,下面的结果是在 Mac mini 的 CPU 设备上测试获得的。
  测试一:单进程采样对比
  测试二:4 进程采样对比
  测试三:16 进程采样对比
  测试四:32 进程采样对比
  功耗及价格对比
  注:单个 Mac mini 功耗 39w,4 台总计 156w(瓦),传统服务器约为 1300w(瓦)。
  注:单个 Mac mini 价格 6799 元 (512GB 官网价格),4 个总计 2.7 万元,传统服务器约为 30 万元。
  M1 的共享内存架构适合于 RL 的训练方式,目前,使用 Apple 的 M1 芯片组建的小型服务器,以 NVIDIA GPU 服务器 10% 的价格和更低的功耗,取得超过 200% 的时间效率提升。在强化学习目前主流训练框架下,训练效率的瓶颈往往在于策略网络的通信速度不够快,而共享内存方案可以减小通信上的开销,为 RL 训练带来巨大的效率提升。

为祖国母亲喝彩!点赞我有一个伟大的母亲,她叫中国。她所取得的成就,令世人瞩目,令国人自豪,让我们一起见证那震撼人心的时刻。中国天眼望远镜世界上最大的单口径射电望远镜在中国,它就是中国天眼,为人类探寻宇中国天眼已发现500多颗新脉冲星3月28日拍摄的中国天眼全景(维护保养期间拍摄,无人机照片)。自2017年10月10日首次对外宣布发现脉冲星以来,截至目前,被誉为中国天眼的500米口径球面射电望远镜已发现500余为什么说在火星上发现生命,将会是人类绝望的开始?你是否想过,如果真的有一天,发现了地外生命,对于人类来说,可能并不是一个好消息。似乎是从人类文明诞生开始,火星就一直是不详的象。不论是在东方还是西方,人们看到它唯恐避之不及。在中国元宇宙的十大特征元宇宙是人类无法改变的物质世界之外,可以随意设计和改变的虚拟精神世界,也就是说,元宇宙可以让你看到你在现实世界永远无法看到的场景。元宇宙的特征1元宇宙可以虚实结合把现实世界通过影像Science可编程量子模拟器实现奇异的量子物相量子计算机能够以远超传统超级计算机的速度处理一些计算任务。然而,要实现通用的量子计算机,一个巨大的挑战是,如何保护编码信息的量子比特免受噪声干扰?物理学家发现,一些奇异的量子物相具足迹显示两腿恐龙是敏捷的13December2021西班牙出土的恐龙足迹的最新研究及越来越多证据显示出土恐龙与霸王龙的基因类似是敏捷的。霸王龙是体型庞大的,吃不敏捷小恐龙的食肉恐龙。该发现登在12月9日自外星人会入侵地球吗?根据黑暗森林法则,文明之间真的无法共存吗宇宙顶级文明能厉害到什么程度相信大家都看过不少外星人入侵地球的电影,那么,外星人真的存在吗?真的会入侵地球吗?宇宙中那么多星球,他们为什么要偏偏入侵地球?地球有什么特殊之处吗?是为传说中鬼打墙是迷信吗?科学家作出解释,真的太神奇了很多人都听说过或经历过鬼魂撞墙的神秘。俗称鬼打墙。鬼打墙意味着,当人们在夜间行走或迷路时,无论怎么走都找不到路,只能在原地掉头。迷信的人会认为鬼魂在人们面前筑起了一堵看不见摸不着的给孩子的太空指南为将来的太空探索之旅做准备2021年,中国航天事业先后有两件关于太空探索的重大事件引起了世人关注。一件是在今年的5月15日7时18分,科研团队根据祝融号火星车发回遥测信号确认,天问一号着陆巡视器成功着陆于火奇妙金字塔2021加油带头人提到金字塔,大家定有不同看法。金中增袋的材料是石头,石头是从别的地方运到吉萨沙漠去的。但是石块为非常重,大的重5。0吨,小的也有2。5吨,光胡夫金字塔就耗230吨比天宫空间站还要牛?中国千米级航天器重磅来袭,科研发电两不误图为中国天宫空间站示意图这几年中国在航天领域内取得了大量的成就,发射了天问一号火星探测器,还启动了天宫空间站的建设,而前不久一个消息震撼了全世界,中国专家提出了建造千米级别大型航天
半导体超痕量分析的难点解析来了(二)上次我们说到,为了达到用ICPMS测定ppt量级的Fe及其他关键元素的目的,各影响因素必须很好的消除。消除方法除了使用上述提到的高分辨ICPMS外,还有降低等离子体的功率(冷等离子培养基知识都在这儿了,不收藏吗?培养基,是指供给微生物植物或动物(或组织)生长繁殖的,由不同营养物质组合配制而成的营养基质。一般都含有碳水化合物含氮物质无机盐(包括微量元素)维生素和水等几大类物质。关于培养基还有你的药包材相容性检测结果对吗?药品与包装材料相容性研究过程如何进行试验结果的评估进行解读?今天小析姐和大家聊一聊研究过程的3个评估阶段以及在相容性研究过程进行试验结果安全性评估时涉及的PDE,SCT,QT,AE几种食品检测中的样品前处理方法简介食品在人们的生活工作和学习中扮演着重要的角色,食品的质量问题关系到百姓切身利益和身心健康,是全民和全社会共同关注的焦点。食品检测中样品前处理的目的就是浓缩被测物质消除基质干扰保护仪国内首个全谷物食品认证实施规则备案发布2021年7月1日,在国家市场监督管理总局全国认证认可信息公共服务平台,在认证规则名称栏输入全谷物食品5个字,点击查询后显示全球绿色联盟(北京)食品安全认证中心是国内首家在国家市场解惑到底什么是新兴有机污染物?中国对若干新兴污染物的研究翌日剧增,从环境采样技术与分析方法区域污染特征迁移转化界面行为等方面的研究成果,也包括一些生态毒理与人体健康风险的研究结果。接下来,和小析姐一起看看吧。化我国新兴有机污染的评估与监测情况为全面掌握新型污染物的实际情况,我国开展了一系列评估和监测工作。一是发布评估指南,如2014年出版的内分泌干扰物评估试验指南,为EDCs筛选实验等工作做出指导。二是开展多种形式的评政策持续推进,我国进一步规范碳排放权交易日前,上海环境能源交易所发布关于全国碳排放权交易相关事项的公告(以下简称公告),对全国碳排放权交易的交易方式交易时段交易账户等相关事项进行明确,以规范全国碳排放权交易及相关活动,保VOCs治理设施运营台账怎么做?有哪些易违法行为要注意?全文共4326字,阅读大约需要11分钟挥发性有机物无组织排放控制标准(GB378222019)标准已于7月1日正式实施了,那此标准执行后,会给现有企业带来哪些VOCs管控方面要求的一文带你掌握全二维气相色谱GCGC气相色谱作为一种重要的分析挥发性和半挥发性有机化合物的工具,在对组分数多达几千的复杂体系进行分析时,传统的一维色谱(1DGC)不仅费时,而且由于峰容量不够,峰重叠十分严重等问题无法ICPMS前处理技术要点汇总合适的前处理方法不但能保证你的测试结果的准确性,也能减小分析对仪器造成的伤害。以ICPMS为例,因为它对基体的耐受性要比原子吸收原子荧光等要差些,高基体的样液极易造成干扰,而且对仪