范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

腾讯刘伟AI药物发现存在一个核心问题,即模型是否具备泛化能力

  萧箫 整理自 MEET
  2023量子位 | 公众号 QbitAI
  AI制药,一个被称作明星赛道的行业。
  不仅融资消息隔三差五传出,更被认为是计算生物最有希望落地的领域。
  据量子位智库预测,AI制药行业国内市场保守估计将达到2040亿元规模。
  在这样的前景下,不仅国内外高校博士生和教授纷纷投身创业,就连互联网大厂们也争相入资角逐。
  如今AI制药步入热度高峰后的瓶颈突破期,各玩家的差异性也逐步显现。
  作为国内互联网巨头的腾讯,相比间接投资,三年前选择直接成立AI制药平台,成为赛道上角逐玩家之一。
  现在,腾讯AI制药平台成果进展如何?相比同赛道玩家,其竞争优势是否得以体现?
  在MEET 2023大会上,腾讯医疗健康AIDD技术负责人刘伟 ,从腾讯制药AI算法实践的角度探讨了这一行业当前的现状。
  为了完整体现刘伟的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。
  关于MEET智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2023大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。 演讲要点在AlphaFold和AlphaFold2驱动下,AI药物行业发展速度非常快,而腾讯在蛋白质结构预测上的工作从2019年初就开始了。骨架跃迁分子生成算法能在保证原有化合物活性的基础上,突破原有分子专利的保护,或者优化分子的ADMET性质。只靠数据驱动的AI缺乏可解释性,要与领域知识相结合;药物AI是AI算法和领域知识相互发现,相互提升的过程。AI辅助药物发现存在一个难题就是泛化性,即在A靶点中训练的AI模型,通常难以应用到B靶点上做预测。这个问题的解决对技术的突破至关重要。
  (以下为刘伟演讲分享全文) 腾讯云深智药是一个怎样的平台?
  我分享的题目为"腾讯制药AI算法实践",会对腾讯过去3年积累的AI制药技术进行一个展示。
  我叫刘伟,是腾讯AI药物发现这一块的技术负责人。今天我要讲的内容,主要包括三个部分:
  第一部分是腾讯云深平台介绍,它实际上是沉淀了腾讯AI制药技术的一个平台;第二部分是平台的案例分享;第三部分总结平台的技术优势。
  我们先介绍一下腾讯云深平台的两大功能模块,一个是小分子 药物发现,另一个是大分子 药物发现,这里主要指抗体药物发现。
  其中,小分子模块包括蛋白质结构预测、分子生成等6个模块,大分子模块则由抗体结构预测、抗体亲和力、以及抗体人源化改造等几大模块组成。
  时间有限,我们不会详细介绍每一个模块,主要会讲案例以及部分底层技术的实现。腾讯云深平台四大案例分享
  第一个案例是蛋白质结构预测 ,这块腾讯在国内可能是做得最早的。
  最近在AlphaFold和AlphaFold2的驱动下,行业发展速度非常快,而腾讯从2019年初就开始做相关技术工作。
  大家应该比较清楚,蛋白质是生命及其活动中非常重要的组成部分,蛋白质结构预测则是指给定一个氨基酸序列,来预测蛋白质的三维结构。
  我们在2019年打造的一个预测pipeline,当时是基于分子动力学模拟和AI预测相结合的方法,构建了一个叫tFold的蛋白质结构预测平台。
  在2020年比赛的时候,这个pipeline连续八周在评测平台排名第一。
  随后我们还参加了CASP竞赛,在国内获得了第一名,颜宁教授 在她的论文中还引用了tFold平台,这是对我们在蛋白质结构预测上的成果的重要肯定。
  第二个案例是结合物理学特征和本地数据训练,我们做了ADMET性质预测系列模型 。
  也是从2019年开始的工作,想跟大家分享两点:第一点是效果提升,以水溶性模块为例,我们做的ADMET相比头部商业软件效果平均会有20%的提升;第二点是ADMET预测成熟度,在与某药企合作上,我们会提供一个可以说是非常基础的模型,在药企拿到这样的模型之后,会基于具体项目的管线生成的很多内部数据,即项目和靶点相关的特定数据。
  用这些数据对基础模型进行重新训练(retrain) 、或者说做微调(finetune) 后,它会有一个更好的提升。
  比如我们与某个药企合作分析某系列化合物的心脏毒性,发现在项目中后期阶段,基本上与实验结果相关性达95%以上,后来药企就不太需要去做实验了,而是直接使用模型预测结果去做分析了。
  所以我们在ADMET预测这块已经做到非常成熟,目前模型包含60多个属性预测模块,在腾讯云深平台上可以直接使用。
  第三个案例是骨架跃迁分子生成算法 ,这也是针对国内药企或者国内科研机构的一些实际需求打造的,目前同样已经做得比较成熟。
  通过骨架跃迁分子生成算法,就能在保证原有化合物活性的基础上,突破原有分子专利的保护,或者优化分子的ADMET性质。
  我们自研了骨架跃迁算法,与药企做了一些合作,这些合作不仅帮助到药企发现了纳摩尔级别的多个化合物系列,也很好地验证了我们这个流程的健壮性,在不同的靶点、不同的复合物上都实现了比较好的效果,目前部分研究成果已经发表在期刊上。
  第四个案例是将强化学习引入药物小分子的生成 。
  在生成分子的时候,我们不仅要考虑分子活性,还要考虑ADMET的属性,所以我们把这些流程做了一个打通,你可以定制这些ADMET属性的要求。
  在生成过程当中,我们用上强化学习,使得生成出来的分子符合定制的属性要求,两个不同的模块能够相互提升和强化,最终建设一个非常完整的pipeline,这可以用在各种分子生成的场景中。
  例如这个例子中,生成有两个要求,包括不能通过血脑屏障、以及logP的属性:
  可以看到,在没有经过强化学习时,它的分布是比较弥散的,生成出来的化合物不太满足实际应用需求。但经过几轮强化迭代后,97%的分子都会满足生成的要求。这一平台具备哪些技术优势?
  接下来,我们总结一下腾讯云深经过两三年发展后,积累出的一些技术优势。
  第一块是在AI算法 方面。大家知道,在药物研发这一块最主流的技术就是深度图神经网络,腾讯在做药物AI之前,在这方面做了非常长时间的研发,也有非常深厚的技术积累。
  因为腾讯是一个社交网络公司,所以在深度图神经网络方面有深厚的研发积累,包括在一些AI顶会如NeurIPS上面,我们腾讯AI Lab在上面发表了非常多的论文,包括大规模图随机采样、以及图自监督学习等,其中一些论文的引用量非常高。
  第二块和第三块,就是大算力、大数据 方面的能力。
  我们知道化学空间非常大,以10的n次方为计数,在这么大的化学空间中发现药物分子非常不容易。
  通常的做法是借鉴自然语言处理或者图像视觉技术发展而来的大模型预训练,使得模型本身能够理解化学空间的语言,比如像理解SMILES、3D分子结构,甚至是理解蛋白质结构。
  所以这方面会面临针对大模型、大算力的强劲需求,我们在这一块也做了非常多的工作,后面会详细介绍。
  最后一块,我们基于腾讯在算法算力上的能力,将AI与物理、化学做了一个结合 ,这是团队新生长出来的能力。
  我们认为,AI纯粹只靠数据驱动是不足够的、缺乏可解释性的,做出来模型之后,它有时也会因为数据稀疏、漂移产生一些问题。如果能够结合物理、化学知识进入AI算法模型,就能够非常好地反映在化学、或是底层物理方面的一些特征和规律。这样做出来的AI模型,不仅过拟合风险更低,实际应用中也有非常好的可解释性,这也是我们最近几年重点发展的一个能力。
  我们再展开给大家分享一下这几块内容。
  第一块是AI+量子化学方面的算法能力。
  我们开发了一系列用AI方法做量子化学计算的算法。量子化学是一个非常广泛而深刻的技术领域,它从比较低精度的经验性计算到非常高精度的多体计算,都已经开发出了很多方法。
  对于现存最高准确度的,例如全组态量子化学计算,它需要非常大的计算量,这对像药物分子、或者说drug-like这样的分子是不太可行的,只能被迫使用比较低精度的方法。
  针对这样的痛点,我们做了一个叫DeepQC 的框架,可以在以秒为量级的时间单位下,达到高精度大基组DFT的计算结果。
  我们还把DeepQC用在像晶体、催化体系上,也取得了非常好的效果,特别值得一提的是,在今年的催化剂相关比赛Open Catalyst Challenge 2022上我们还拿了冠军。
  这也是基于我们多年以来对AI和量子化学结合的探索基础之上做出的工作。
  这样一套方法,我们原本只是在有机分子上,我们看到将其推广到催化的表面体系,以及晶体的周期体系,它仍然可以非常高精度、非常快速地完成任务,它的速度比用量子化学模拟要快一个数量级。
  第二块是我们在图卷积神经网络方向的技术发展。
  腾讯以前做的很多图卷积神经网络工作在社交网络方面,但我们把它拓展到蛋白质结构上,发现也有非常好的效果。
  实际上不管是蛋白质,还是这些配体和药物体系里面,它其实都有非常好的层次结构,和社交网络非常相似。
  蛋白质通常被分为几层结构。从最底层的原子、甚至电子,再到氨基酸,氨基酸又组成蛋白质多肽链,再到上面三级结构或四级结构,如果在各种不同的层级用不同神经网络建模方法,就可以把它做得更好。
  我们把层次图卷积神经网络用在抗体结构预测上,效果超过了AF2、IgFold等模型的结果,目前相关论文也已经被NeurIPS收录,也已经在arXiv上公开。
  第三块是大分子预训练模型。
  我们刚才提到,药物化学空间非常大,但是具体到某个药物研发项目中时,数据非常少甚至没有,所以你必须解决过拟合的问题。
  我在做某一个项目、某一个靶点的时候,它的数据可能就只有几百甚至几十个,这种情况下如果没有大数据作为基础,是非常容易过拟合的。
  我们在2019年就意识到这样的问题,发表了一个大规模分子预训练模型叫GROVER,现在几乎这个领域的所有工作,都会引用当初我们在GROVER上做的成果。
  我们是国内最早在分子图上做预训练的,而这也是腾讯云深平台非常底层的技术,不管是在分子属性预测、还是蛋白质结构预测、还是抗体药物设计上,它都是非常底层的公共技术模块。
  不管是针对2D还是3D分子,都会基于embedding做特征提取,然后也是预训练+微调这样来用,也是行业内的一个范式。
  最后,就是我们今年最新的一个工作。
  我们在做AI辅助药物发现时,发现了这样一个问题,在A靶点(A场景) 中训练的AI模型,会非常难以应用到B靶点(B场景) 上做预测。
  这个其实就是OOD(out-of-distribution) 问题。这个是机器学习自身的一个核心问题,现在也没能100%完全解决。
  为了验证我们模型的有效性,我们去做了一个名叫DrugOOD的开源框架,现在它也已经贡献给了行业和社区。
  我们会根据不同的domain把它做一个划分,比如按照骨架、实验assay、或者靶点区分,这样训练出来的模型就会非常不一样。
  这个过程中,我们实际上希望模型在不同场景具备一定的迁移能力,不然模型只能适合某一训练数据场景,这其实不是我们所希望的,因为这样的模型适应能力非常弱,没办法应用到新的问题上。
  在DrugOOD中我们会有一个数据Curator的模块,之后我们会做一个分割,这样在训练不同模型时,我们就可以按照不同的标注去自动写一个配置文件,测定我们新训练的模型在不同的蛋白质家族上不同的效果,这样对模型的泛化性就能有一个非常明确的认识。
  — 完 —
  量子位 QbitAI · 头条号签约
  关注我们,第一时间获知前沿科技动态

徐梦桃张伟丽分享居家健身经验传递体育精神来源中国教育新闻网徐梦桃(左)张伟丽在活动现场。主办方供图中国教育报中国教育新闻网讯(记者余闯)近日,中国移动北京公司和中国移动咪咕公司联合举办的健康守护,移路同行主题活动在北京首从夺冠到鱼腩!篮网一秒天堂,一秒地狱一秒天堂,一秒地狱这句话,用在网队身上简直不要太贴切。得亏之前底子打得好,哪怕是近来连战连败,仍能雄踞东区前四,只不过看起来摇摇欲坠话说两星期之前,网队与东区榜首绿军,也不过只相差全明星第三轮结果!仍有2个悬念,杜兰特被反超,76人太惨了北京时间1月20日,NBA官方公布了全明星第三阶段投票结果,这当中詹姆斯仍然还是领跑全联盟,拿下票王基本没啥悬念。而在这次结果中,西部并没有发生什么变化,倒是东部出现了一些改变,7NBA承认错判导致湖人输球,詹姆斯爆粗口总有人想看到我输球湖人在面对国王的比赛中非常有希望拿下胜利,然而在最后时刻由于裁判的原因,最终导致球队功亏一篑,当时在比赛还剩下最后7秒钟的时候,湖人队的后卫纳恩在右侧三分线外接到詹姆斯的传球之后果误把前列腺炎当成不治之症,中医辨证调理最近门诊有位患者,刚来就说,医生我怀疑自己患上了不治之症。患者就诊时就非常紧张,好像在等我的宣判。了解到患者前段时间出现尿急尿频,于是在网上搜索,看看自己是什么病,有人说是慢性前列今日大寒,暖好这9个部位,一年都会有好身体大寒我们一年当中二十四节气里面的最后一个节气。大寒,顾名思义就是天气寒冷到了极点。这要求我们要适时调整自己的饮食起居与穿戴方式,特别是对于我们刚刚阳康的朋友来说,大寒怎样吃才能保暖私处瘙痒,阴道炎反复,中医一方完带汤,双管齐下赶走它!日常生活中,很多女性深受妇科炎症的困扰,特别是阴道炎,最易反复发作,一发作起来就瘙痒难耐,白带甚至会有异味。面对阴道炎,不少人觉得这是因为有不干净的性生活才得的病。但阴道炎的发生可倪萍做最忠实的观众,直言每年都会看完0点后的春晚才安心倪萍做最忠实的观众,直言每年都会看完0点后的春晚才安心聚焦艺人最新动态,传递圈内主流声音。晓金娱全网特供百家号独家首发,严禁转载倪萍为中央广播电视总台2023年春节联欢晚会造势,直你们的孩子都会十万个为什么吗妈妈,你说韩愈是不是很憋屈?为什么这么说?韩愈金榜题名啊,是进士,当时殿试的第二名啊!哦,那很厉害了。那你知道什么是殿试吗?不就是皇帝监考出题的考试吗?对,就是皇帝是考官,给他们出男人60岁之后,做好这两件事,一般都会长寿前言在我们的生活当中,有很多事情很简单,但是有一些事情已经超出我们的想象,我们一定要知道自己究竟在做什么,不要总是觉得生活没有着落,在更多的时候必须找到正确的方法,只要人生幸福,其红色积淀喜乐洋溢腊月情韵心在平淡中盈满温润,回眸,有明天可奔赴,有过往可回头,有温暖可相依。街头的灯火,已阑珊,不知有几人还在众里寻他。缘灭缘起,天上蠕动的云在低语千百度后,一切归于流年。漂泊在匿名的河流
卖5斤芹菜被罚6。6万,国务院督查组质问当地领导8月27日,榆林夫妇卖5斤芹菜遭罚6。6万引发热议。据央视新闻报道,近日国务院督查组接到群众在国务院互联网督查平台反映,陕西榆林的一家个体户卖了5斤芹菜后被市场监管部门罚了6。6万德国率先扛不住,加拿大归还涡轮机,还找了个冠冕堂皇的理由2014年克里米亚危机爆发的时候,由于亲西方的乌克兰政府上台执政,因此俄罗斯派兵火速夺取了乌克兰领土克里米亚半岛。随后俄罗斯就陷入到了西方国家的集体制裁之中。当时以德国为首的欧盟国海南新增感染者数量持续下降重点企业重点项目有序运转经济日报海口8月27日讯(记者潘世鹏)27日举行的海南省新冠肺炎疫情防控工作新闻发布会通报,海南新增报告新冠肺炎感染者数量呈持续下降趋势,全省统筹疫情防控和经济社会发展,保障重点企有一个可笑的说法中国人没有信仰有一个可笑的说法中国人没有信仰!我现在告诉你中国人的信仰是什么!你肯定听人说过这句话吧中国人没有信仰,这样不好,人有个信仰还是挺好的。我就听我的高中班主任说过这话,当时还深以为然。重男轻女(小小说)赵家湾地处偏僻,山高路陡,劳动力在这里显得十分重要,村里人重男轻女的思想非常严重。赵二柱两口传宗接代的封建思想更是突出,妻子生下春娟时,赵二柱叹了口气唉,怎么生下个赔钱货!于是,小怪鱼抓住了点蓝字关注,不迷路记者从汝州市城市公园管理方获悉,此前,市民在云禅湖水域发现的疑似鳄雀鳝的怪鱼已于26日晚被抓住。据了解,怪鱼共有两条,经确认系外来物种鳄雀鳝,公园管理方已对其进行杨从哪里来中华前十姓是李王张刘陈杨赵黄周吴。前面几篇文章讲了一一讲了前五大姓氏的来源。今天简单讲讲杨姓起源。杨姓有两大来源,一是以国为姓,一是以邑为姓,这两支都源于姬姓的西周王族,是中华民族抗议大陆军演!夏立言无法恢复国共合作,再暴露国民党民进党趋同文郑敢言国民党副主席夏立言8月10日率团访问大陆,在10天隔离期满后,终于8月21日出关展开拜会台商行程。夏立言8月27日返抵台湾,晚上将与党主席朱立伦一同举行记者会,汇报访问成果李敏李讷俩人产生摩擦时,毛主席从不偏袒谁,处理方式值得学习众所周知,毛主席有两位千金,一个李敏,一个李讷。不同于她们各自母亲间关系的水火不容,两姐妹虽然同父异母,但她们的关系却宛如从小一起长大的亲生姐妹一般融洽。即便两人如今已化作老妇,却不滥情不整容,个个清白干净,这8位女星,是娱乐圈的清流在光怪陆离的娱乐圈,情史混乱者数不胜数,整容动脸者不胜枚举。情史干净并且坚决不整容的女演员,凤毛麟角,十分稀缺。今天为大家介绍8位女星,她们不滥情不整容,个个清白干净,是娱乐圈的清劝君少骂河南人上世纪末期,河南人成了某些地区的热门话题,就像流传的典故偷斧子的人那样,河南人成了假冒伪劣坑蒙拐骗的代名词。这种地域性的歧视,造成很严重的恶果。有些河南人外出务工找不到工作,有些在