一个模型搞定元素周期表常见元素分子模拟模型最高省90数据
白交 发自 凹非寺
量子位 | 公众号 QbitAI
分子模拟领域的预训练模型,来了!
DPA-1 ,中国团队深势科技以及北京科学智能研究院等机构打造,能覆盖元素周期表大多数常见元素。
在各类数据集上的迁移学习结果表明,该模型能大幅降低新场景对数据的依赖,甚至在特定条件下能省去90%的数据。用大模型的思路打开分子模拟
机器学习辅助下的原子间势能面(PES) 建模,与相应的机器学习势函数正在彻底改变分子模拟领域。PES是用于描述化学体系的一个基本量,通过它能得到大量原子间相互作用的信息。
过去传统的分子模拟,主要是基于物理经验得到的解析函数来描述PES,但始终无法完整描述出原子间相互作用。
目前,机器学习势函数得益于第一性原理计算产生的数据,极大拓展了模型的应用范围,在材料科学、计算物理等领域应用广泛,并取得了较大成果。
不过仍面临着现有模型迁移能力不足、缺乏通用大模型的局限性。当面对一个复杂体系时,仍需获取大量数据从头开始训练模型,造成计算成本高昂。
基于这样的背景,研究人员参考当下在CV、NLP等领域中大模型的一种"预训练+少量数据微调" 解决方案,提出了DPA-1 ,基于新注意力机制的深度势能预训练模型。
类似于NLP的注意力机制,研究人员提出了门控注意力机制 (即图中的红色模块) 。
据介绍,该模型在原子局部环境矩阵上进行了类比多体(大量粒子构成的微观系统) 相互作用的信息交互,并以正则化的相对坐标点乘作为角度信息,对获得注意力权重进行重新加权,以此来实现类似门控的机制。
此外,DPA-1还引入了对元素的编码。不同元素共用同一套网络参数,从而提升元素容量。还将化学元素可视化
在迁移性测试中,研究人员有意将不同训练集划分成多个子集,且每个子集的组分、构型都有较大差异。
以AlMgCu合金数据集为例,则是分为了single、binary、ternary三个子集。
(single子集仅包含单质/一元数据,binary仅有二元数据,即Al-Mg,Al-Cu,Mg-Cu;而ternary则是剩余的三元数据)
结果显示,相较于DeepPot-SE,DPA-1的测试精度有较大的提升,甚至在特定条件下这种提升达到了一两个数量级。
进一步地,研究人员设计了迁移学习的方案。
简言之,就是先在较大规模数据上进行预训练,然后根据新的少量数据集修改最后一层能量偏差。
在AlMgCu合金数据集测试中,就将一元、二元子集上进行预训练,然后在三元子集上测试。
结果显示,对比DeepPot-SE,DPA-1可节省约90%的三元数据。
在仅有少量三元数据测试下,也能达到较高的精度。
接着他们在包含56种元素的大型数据集OC2M上预训练,并将其迁移到毫不相关的HEA和AlCu数据集上,结果都显示出能成功的应用。
其他类似模型GemNet(分子的通用方向图神经网络) 在同样OC2M数据集上预训练,产生的模型有数十亿的参数,训练时间需要数以千计的GPU hours 。
而DPA-1只需要不到200个GPU hours 来训练不到一百万个参数,并取得了不错的结果(DPA-1和Gemnet-OC[34]的能量MAE为0.681 vs 0.286 eV) 。
除此之外,他们还将元素可视化——模型中学习到元素编码进行了PCA降维并可视化。
可以看到,所有元素都呈螺旋状分布,同周期元素沿着螺旋下降,同族元素则垂直螺旋方,恰好对应的是元素周期表的位置。
据研究人员介绍,本次研究证明了"预训练+少量任务微调"流程的可行性。
接下来,他们将致力于势函数自动化生产、自动化测试,也将关注像多任务训练、无监督学习、模型压缩、蒸馏等操作,方便用户一键生成下游任务所需的势能函数。
感兴趣的旁友,可戳下方论文链接了解更多~
论文链接:
https://arxiv.org/abs/2208.08236
GitHub链接:
https://github.com/deepmodeling/deepmd-kit
参考链接:
https://mp.weixin.qq.com/s/cbTgntJmuntskQmTWjAINA
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
安徽2大名酒陨落,风光时也火遍了大江南北,如今却卖不出去曾几何时,安徽白酒的地位也是居高不下的,坊间还有西不入川,东不入皖这样的说法,意思也就是其他地方的白酒不要去四川和安徽发展,因为根本就难以立足。但是这句话在如今看来却像一个笑话,四
场面壮观!新疆昭苏千匹骏马草原奔腾来源央视新闻客户端地处天山脚下的新疆昭苏县有着天马故乡之称,那里出产我国本土的马种伊犁马。这几天,随着气温回升,1000多匹被圈养了一个冬天的马回到了草原,以便在春夏季保持良好的状
喀喇乌苏之战清军平定西藏最大的败仗,6000勇士血染雪域高原康熙三十四年(1695年),康熙皇帝亲率10万大军在昭莫多(今乌兰巴托南郊的宗莫德市)与准噶尔汗国大汗噶尔丹率领的3万准噶尔骑士展开决战,最终清军大胜,噶尔丹军遭重创,清军一战打断
县城,一个属于体制内的江湖你问我体制内的工作,在哪里最吃香?我会毫不犹豫的告诉你不是北京不是省市,体制内最吃香的地方一定在县城,尤其是那些经济不发达的县城。因为这种县城,没有可以依靠的支柱产业,整个经济基本
西藏综合施策稳就业促创业上图搬迁群众在拉萨市当雄县蓝色天国羊八井地热旅游区冲浪乐园实现就业。左图西藏技师学院机电一体化专业的学生正在进行课堂实操。本报记者贺建明摄就业是最基本的民生。近年来,西藏把促进就业
场面壮观!新疆昭苏千匹骏马草原奔腾地处天山脚下的新疆昭苏县有着天马故乡之称,那里出产我国本土的马种伊犁马。这几天,随着气温回升,1000多匹被圈养了一个冬天的马回到了草原,以便在春夏季保持良好的状态。那里究竟是什么
长三角春游列车有多红,沿途风光有多美?潮新闻和列车长聊了聊春光烂漫,你有没有想乘坐一趟去往春天的列车?2023年,铁路春游运输从3月10日起至4月10日止,为期32天,涵盖5个周末和1天清明假期。启动至今,大家春游热情高涨,长三角铁路春游
兰州花讯来了,远景山的山桃花开了!头条创作挑战赛一早东边的天空,就被鱼鳞云遮的严严实实,阳光透过云隙间狭小的空间,也洒不下温暖的阳光几点,料峭的晨风捕在脸上,我倒觉的很爽快。今天是徒步游玩的日子,目标是在我耳边听了
西平的桃花雪有多美?赏雪亦是赏花时记者许静文见习记者赵永涛图西平的桃花雪有多美?一场跨越季节的雪与花的碰撞和诗意。海棠不惜胭脂色,独立蒙蒙细雨中。3月16日下午,驻马店西平县飘飘洒洒下起了蒙蒙细雨鹅毛大雪,突如其来
SpaceX刷新最短发射间隔4小时12分今天太空快递一哥又破纪录,短短间隔4小时12分,美国东西海岸两大发射场,SpaceX接连打出今年第1819发,一举打破双连发最短间隔纪录。第18发美太平洋时间3月17日正午1226
第七届乡村文化旅游节开幕八大主题线路带你畅游郧阳十堰广电讯(全媒体记者李安清)春风是贵客,一到便繁华。3月19日,第七届乡村文化旅游节在青山茶旅小镇开幕,郧阳区文化和旅游局发布八大主题春季旅游线路,邀你畅游春天里的郧阳。线路一恐