低调筹备三年后,晶泰科技 自动化实验室 首次公开亮相; 分子之心创始人许锦波教授,公布全球领先的 十大算法 ; 天壤XLab,发布国内首款 AI蛋白质设计工作台 CREATOR…… 9月3日,2022人工智能大会在上海圆满落幕。生物计算专项论坛上,企业及科研机构们都"官宣"了哪些亮眼成果? 晶泰科技:自动化实验室首次亮相 自2019年起,晶泰科技便开始在深圳河套深港科技创新合作区自主研发自动化实验室相关技术。自动化实验室面积 超过3,000平方米 ,已在自动化化学合成等场景中有成熟应用,为青煜医药、海正药业、溪砾科技等客户提供相关服务。 图:晶泰科技位于深圳和上海的自动化实验室 自主研发的智能自动化药物研发平台中,物理模型产生的干实验数据为AI建模提供了支持。 而人机协作的自动化合成实验,不仅实现 7*24小时 不间断工作,减少人为失误和依赖,更能产生更多标准化、高质量的 湿实验数据 ,反馈给AI模型并持续迭代优化。 化学合成团队目前拥有近 300名 合成研究员和数百台自动化工站,采用全自动或人机结合的实验模式,应用范围涵盖高通量平行反应和多步自动化合成,可覆盖大多数常用反应。 此外,还具有控制反应温度变化从0到150摄氏度,兼容固体和液体的精准计量,实现了LC-MS (液相色谱-质谱联用仪) 自动监测反应,利用自动化手套箱工站,可进行无水无氧操作等功能。 经过反复测试,此类人机结合的实验模式 使实验效率有了明显提升 ,实现了更高效且质量稳定的交付。 另外,自动化实验室也帮助团队突破药物研发中的效率瓶颈和数据瓶颈,在后疫情时代打破距离限制,实现 居家远程操作实验 。 天壤XLab:发布国内首款AI蛋白质设计工作台 9月2日,天壤XLab负责人苗洪江博士发布了基于AI的蛋白质设计工作台 CREATOR,可一站式解决算法、数据和算力问题,加速蛋白质设计工作的大规模开展和落地。 CREATOR工作台内置了大量自主研发的优质算法。 如自研最新的 TRFold-Single核心算法 ,可以让用户直接从单序列生成预测结构,该算法在对"de novo 86测试集"进行预测评测时,平均分达86.2,优于AlphaFold2的82.6分。 基于共进化信息 (MSA) 的单链结构预测核心算法TRFold,可实现与冷冻电镜解析相仿精准度。 此外,平台也能实现 复合体的结构预测与分析 ,还内置了其它开源和合作伙伴的算法,供大家自由选择。 "我们还在进一步降低蛋白质设计的门槛,使CREATOR真正成为人人可用的设计工作台。"天壤XLab负责人苗洪江博士介绍。 CREATOR工作台将于 10月1日正式上线 ,届时将面向全国高校免费开放,登入天壤XLab官网即可注册。 分子之心:公布十项全球领先AI算法 9月2日,分子之心创始人许锦波教授,公布了自主研发平台 MoleculeOS 的最新研究进展。 图:AI 蛋白质设计平台 MoleculeOS 基于该平台,团队提出了基于AI 的单序列蛋白质结构预测算法 RaptorX-Single, 可以在不使用MSA (来自同源蛋白质的多序列比对) 的情况下,从其一级序列直接预测蛋白质结构,并 实现超越 DeepMind AlphaFold2等方法的性能 。 同时,RaptorX-Single 所采用的模型更轻量, 参数不到Meta ESMFold方法的三分之一 。 此前,DeepMind、Baker等研究团队相继推出了AlphaFold2、RoseTTAFold 等 AI 蛋白质结构预测模,极大推动行业进步,但仍无法对孤儿蛋白等缺乏同源进化信息的蛋白质进行高精度结构预测。 以下为团队的10项领先算法: 第一,在蛋白质从头设计方面,分子之心MoleculeOS 平台拥有多种世界领先的能力。比如,其 蛋白质序列设计算法在4个大家普遍使用的数据集上表现出了全球最高的 NSR ; 第二,蛋白质主链结构设计算法, 全球首次突破复杂结构的蛋白质主链结构从头设计 ,可以设计出各种各样自然界不存在的、非常复杂的蛋白质构象,比自然界的蛋白质更稳定; 第三,首创无需模板的蛋白质配体生成算法 ,可以生成自然界不存在的、全新的结合蛋白质。 第四,基于MoleculeOS 平台,分子之心还开发了 世界上首个端到端的蛋白质柔性对接算法 ,可实现两个蛋白质间更精准的对接。 第五,在蛋白质优化方面,分子之心开发用于预测单点突变对蛋白质性能影响的AI 算法,不需要实验数据,即可对单点突变进行预测,算法的性能大幅刷新世界记录,是该领域目前 世界上最精确的算法 。 第六,在抗体重设计算法方面,分子之心构建了 业界误差最小的 CDR 区间重构算法 ,可与分子之心的蛋白质优化模块结合,用于对抗体的 CDR 区间进行优化。 第七,在蛋白质结构预测方面,分子之心的蛋白质及复合物结构预测算法在公开数据集上测试, 效果远好于 DeepMind 的 AlphaFold-Multimer 。 第八,分子之心还开发了世界上 首个不使用 rotamer 库的端到端的蛋白质侧链预测算法 ,不仅在侧链二面角的预测误差上远小于业界广泛使用的 SCWRL 软件,预测速度也快于 SCWRL。 第九,在蛋白质功能预测方面,分子之心通过使用图神经网络以及预测的结构信息,以 10-30%的优势 领先于全球范围内所有公开的蛋白质功能预测算法。 第十,在蛋白质语言模型方面,分子之心只使用了5.7%的 Facebook 所使用的训练数据,训练出来的蛋白质语言模型在蛋白质接触预测中 性能超越了 Facebook 训练出来的模型。 宋乐:百图生科的"AI+药物研发"之道 宋乐,曾任美国佐治亚理工学院计算机学院终身教授、阿联酋 MBZUAI 机器学习系主任等职务,具有丰富的 AI 算法和工程经验。 此前他从计算生物学交叉学科的角度去研究AI制药;过去一年投身到工业界,和制药人员探索AI和传统生物医学结合的新范式。 以下为他关于AI制药的分享: 图:百图生科首席科学官宋乐在2022WAIC上 首先,我们认为,AI的体系架构也是一个嵌套体系架构,对应着这个多尺度的复杂系统,可能在最外面的尺度,就 相当于对细胞系统的建模 。 不管是一个器官还是整个集体组织,它都是各种类型的细胞经过细胞之间的交互作用才形成了功能。所以,要知道靶点甚至靶点怎么影响整个器官组织,就必须对细胞系统进行建模。 包括细胞本身的建模,对细胞里面的蛋白质相互作用的建模,还有其中单个蛋白质的建模。 这依托的数据实际上也是海量的,比如说可以有百亿级、甚至更高级别的蛋白质数据,还有很多单细胞的测序数据,都能在细胞建模上发挥作用,甚至很多各种各样的劳动数据,文献数据都会给这个体系结构提供很多的信息。 所以, 整个AI体系架构会是一个四层嵌套结构 。 包括公开的实验数据,也需要在这个实验平台中沉淀。而且这些实验数据也主要是泛相关数据,需要进行预训练,才可能起到的作用。 因此,计算资源同样是支撑大规模预训练模型非常重要的部分。去吸收这些泛相关数据中的信息之后,模型再去支持对应的靶点发现和药物设计。 除了 AI模型体系之外,闭环也是非常重要的一件事情。所以,我们在靶点发现这一块也 建立了自己的实验室 ,去培养细胞体系,把实验体系和AI模型进行闭环。 AI模型预测的靶点、靶点组合,会在我们自己培养的细胞体系中实验,去验证或者采集更加多的数据,以评估预测是不是准确,然后这个数据再回流到模型中进行更新,做下一轮的迭代预测。 针对闭环的思考,百图生科在团队设置上,可能 2/3的科学家都来自于生物医学的,以及在大药企工作过 。这部分人员会和团队1/3的AI科学家,还有一部分额外的工程人员合作把迭代循环的系统建起来。有很多问题的设计、定义、数据的理解,都是通过两方人员的合作完成的。 在药物设计上,我们也有自己的实验室去合成蛋白质、测量蛋白质的属性,包括抗体、抗原的结合,蛋白质本身的稳定性、聚集程度等其他一些属性,这些数据也会给到AI模型,让模型有更好的迭代,快速找到针对某个靶点需要的一个药物。 另外, 深势科技签约浦东新区AI重点项目 。上海中心专注于利用人工智能和分子模拟相融合的先进计算手段驱动难成药靶点的药物开发。 由深势科技首席药学官 张晓敏博士 领导,聚焦源头创新,以OlymPCC药物研发平台打造药物研发新流程。 —The End—