范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

生命科学走向ChatGPT时刻,百图生科将发布AI生成蛋白质平台

  ·澎湃科技独家获悉,百图生科即将发布AIGP平台(相当于生命科学大模型的出口)和相应的合作计划,开放部分能力接口。
  "现在大家都知道ChatGPT,好像它是突然出现的,但它实际上是AI领域持续研究慢慢进步的结果。"百图生科CTO、国际机器学习大牛宋乐在接受澎湃科技(www.thepaper.cn)专访时说,"ChatGPT代表了一种新的范式,这个范式转换其实在AI其它领域都在发生,比如在自然语言、图像领域都有大规模预训练模型,然后再微调到下游应用。我们一开始就把这个范式引入生命科学,很早就在人才、AI模型开发以及对应算力方面布局,所以到今天才能够拥有一个千亿级别的生命科学大模型xTrimo。"
  百图生科CTO宋乐。
  在采访中,宋乐将xTrimo比喻为生命科学领域的"ChatGPT时刻"——正如ChatGPT在与全世界用户多轮对话、不断迭代后能生成越来越优质的回答一样,生命科学大模型也需要通过高通量多轮湿实验的闭环验证和数据补充进行持续升级。
  xTrimo选择了与CPT-3.5相类似的技术范式,ChatGPT近期发布后表现惊艳也给宋乐"再一次印证"的感觉,"我们再一次看到大规模预训练模型加下游模式的成功。从某种意义上说,我们在自己的试验或者AI模型里也看到这种效果。"
  宋乐认为,过去几年,随着大模型的出现,生命科学或制药领域也出现了一些阶跃式的提升。"比如去年热门的Alpha Fold 2,其已经预测了全球几乎所有蛋白质结构,实际上它也是依赖大规模的Transformer模型去做阶跃性的提升。"
  "AI For Life Sciences(人工智能用于生命科学)越来越走向生成的道路,不管是在蛋白质序列生成,还是蛋白质结构生成方面。后面我们可能持续看到AIGP(AI generated protein,AI生成蛋白质)方面有趣的进展出现。"宋乐说。
  在采访中,澎湃科技独家获悉,百图生科将发布AIGP平台(相当于生命科学大模型的出口)和相应的合作计划,开放部分能力接口。据介绍,这是一个可以解读蛋白质语言、解决生命科学行业问题的平台,由百图生科近300位AI+BioTech的跨国技术团队花费2年多时间开发。这个平台进行了湿实验系统与AI干实验系统两套系统的闭环。为了保证平台的高效和稳定,百图生科和百度合作,专门设计了大模型xTrimo专用的高性能超算中心。百图生科将在3月23日的发布会上揭晓这个AIGP平台的具体功能。
  为何要做这件事?
  宋乐以数据为例解释道,"因为生命体的高度复杂度。目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,吸收更多的数据尤其是垂直类数据,将使我们能够更加精细精准地理解进化,理解生命。这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴,特别是那些在体外模拟体系、超精度观测和特殊验证体系等方面具有丰富知识和技术的生命科学家。"
  生命科学与AI的融合已加速
  过去十年,生物学领域的数据量出现了爆炸式增长。
  这种趋势可以追溯到人类基因组计划(Human Genome Project)的启动,该计划在2003年完成了人类基因组的测序。从基因组测序到RNA测序、蛋白质组学和代谢组学等多个方面,生物学领域的技术不断进步,数据的规模和种类也不断增加。
  "过去几年最大的变化是数据的爆炸。"宋乐回忆道,"2008年我在CMU(卡内基梅隆大学)做研究时,比较大的基因测序数据集是几百个数据点,而且是bulk sequencing(传统的高通量混池测序)数据,但就现在的单细胞测序来看,数据量已经可以达到亿级。此外,还有很多其他类型的生物数据,也达到了亿级或十亿级以上的规模。"
  这种数据增长的速度,使得研究已经很难再用传统的小工具进行分析。同时,得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。
  2020年9月,百度创始人李彦宏发起成立百图生科,希望将先进AI技术与前沿生物技术融合创新,打造新型多组学检测分析、高通量实验模拟、智能化分子发现引擎,加速新型药物和诊断产品的研发。当时,百图生科即着手搭建生命科学大模型xTrimo。
  也是在2020年,以全球大流行的新冠疫情为分水岭,生命科学领域与AI的融合也进一步加速。
  2020年11月,谷歌母公司Alphabet旗下DeepMind团队开发的AlphaFold 2取得惊人突破,预测结构被认为和真实结构基本一致,困扰学界数十年的蛋白质分子折叠问题见到了曙光。2022年,该系列模型已经预测了全球几乎所有的蛋白质结构。Meta公司也于2022年推出了蛋白质结构预测模型ESMFold。
  "回想起我读博士生期间,那时我们集世界计算方法大成预测结构,最后预测的结果却一塌糊涂,当时的计算真的很尴尬。而如今,AI已经开始颠覆我们对于蛋白质结构的预测。"宋乐察觉到,伴随着大量数据的积累、算力的提升、AI模型的精进,如果能让AI和湿实验闭环,前沿AI技术将会有更大的用武之地。
  2021年,宋乐离开了美国佐治亚理工学院计算机学院。也是在这一年,他全职加入百图生科。"我们要打造生命科学的self-driving lab(自动驾驶实验室是指利用人工智能和自动化技术进行实验和发现新材料的实验室),生命科学大模型会全面支撑这个实验室。有了这样的self-driving lab之后,针对某类疾病、某些生命科学问题,我们就能够很快地发现相关靶点线索和解决方案,以及针对靶点来优化相关药物。"
  得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。图片来源:百图生科
  对于短期目标,宋乐希望能有一部分疾病或者靶点发现实验和生命科学大模型闭环,至少在实验室层面或者动物实验层面证明AI发现的靶点有效或药物有效。更加长期的目标,即是至少在免疫治疗这一领域能够实现靶点发现和药物设计的自动化。
  新药研发的"反摩尔定律"
  当前主流药物研发主要还是依托传统生物学,根据相对有限的实验数据或文献报道结果,筛选可能的靶点或作为推动功能验证的依据。这种实验主导的新药研发模式通常包括药物发现、药物设计、体外实验、动物实验和临床试验等环节。其优势在于可以通过实验来发现潜在的药物分子,并逐步进行优化和验证。
  然而,其缺点也很明显,例如需要大量时间和资源、研究成果的可重复性和可靠性存在一定问题等。
  新药研发领域甚至流传着一个"反摩尔定律(Eroom"s Law)",即新药研发的成本和时间随着时间的推移而呈现指数级增长的趋势。一款新药的面世可能历经"10亿(资金)、10-12年(研发周期)、14%(成功率)"。即便排除万难进入临床一期阶段的药物,最终真正能够成功获批上市的几率,也就是10%左右。更不用说在早期的靶点发现和验证阶段,淘汰率更是高得惊人。
  药物研发的"反摩尔定律(Eroom"s Law)":制药公司正花费越来越多的钱开发更少的药物。(图片来源:research gate)
  当前,新药研发行业正在逐渐转向更加智能化和数据化的研究模式。例如,利用人工智能、机器学习等技术,可以快速分析大量数据,发现药物分子的潜在作用机制,快速筛选出最有潜力的药物分子。
  "很多情况下,一个有效蛋白质的设计或一组靶点的搜寻都要考虑多个因素的组合,比如设计一段蛋白质,有20个不同的位置,每个位置有20种不同的选择。这是一个巨大的空间,人的思维很难对这个空间进行整体的筛选或对比,而计算来做这件事就有一个巨大的优势。"宋乐说,当AI预测的准确性到达一定水平时,毫无疑问会比人类做的好得多。
  2021年5月,著名结构生物学家施一公在"首届中国生物计算大会"中称,AI已进入收获期,对于科学家来说,这是一个如何应用AI的问题。现阶段,AI完成的蛋白、基因组预测遥遥领先于人类预测的结果,评判预测好坏的标准有两个,一是将最精准的结构分析方法精确到1埃(埃是一种长度单位,用于表示原子和分子的尺寸,1埃等于0.1纳米)以内,二是用世界上最好的分子动力学,模拟出它的最佳动态,这已经到了理论预测和实际情况接近的地步了。
  xTrimo能被用来做什么?
  谈到xTrimo的名字,宋乐笑言,发音听起来有点像"极限(extreme)",在一些指标项上,它可以取得世界第一的位置。
  具体而言,围绕整个xTrimo,百图生科构建了世界最大的免疫图谱,包含66亿个蛋白,超300亿条蛋白互作关系,1亿个单细胞,以及超6100万条免疫互作关系和6000亿条泛细胞共现关系。
  xTrimo全称 Cross-modal Transformer Representation of Interactome and Multi-Omics(交互组和多模态的跨模态转换器表述),是全球首个、也是目前最大的生命科学领域的超大规模多模态模型体系。这一体系由千亿参数的预训练模型、蛋白生成模型和多个下游任务模型组成,旨在探索从蛋白到复杂生物体的进化规律,并基于此针对性生成满足特殊需求的蛋白,以蛋白生成和与生物体对话的方式,加速人工设计蛋白进化的速度,从而解决生命科学行业的痛点问题。
  如果针对新药研发的场景,这个生命科学大模型核心要做两件事:一是靶点发现,二是发现靶点之后,更好地基于这个靶点去设计药物。
  具体而言,最底层是预训练模型的底座,通过预训练模型去吸收大量非监督和弱相关的复杂数据中的信息,学习其中的表征,以帮助下游任务,包括靶点推荐的算法、基于靶点对蛋白质设计的算法。
  xTrimo的设计逻辑包括4层嵌套结构,第一层是对单个蛋白质的建模,第二层是对细胞中蛋白质相互作用的建模,第三层是对细胞本身的建模,第四层则是对细胞系统的建模。这样的通用大模型建成以后,再微调到需要的疾病靶点或设计生成的蛋白上,即可减少对数据和试验的需求。
  比如当我们知道有一个疾病靶点,要设计一个蛋白质,这时候有几个关键的参数。首先是结构或者说形状,其要和靶点有一定的契合程度。可以将疾病相关的靶点想象成一把锁,设计的蛋白即是钥匙,要打开锁,锁齿和钥匙就要有比较准确的契合程度。第二是亲和力,即结合紧密的强弱程度,这个需要模型来预测。
  所以在底座通用模型上,可以想象有两个下游的模型,一个做结构预测,另一个完成结合的紧密强弱预测。当这两个都有比较准确的预测之后,就可以在计算机里筛选可能的设计。可以生成很多蛋白,然后通过预测去筛选最适用的,最后再送去试验侧,收集试验反馈。
  如果试验反馈是需要的蛋白,那么这个过程就结束了。如果还不是或不够好,这个试验就会给模型反馈,然后它会进行下一轮同样的过程。几轮迭代之后就会找到一个符合设计要求的蛋白。在这个过程中,模型也在学习,越来越准确和聪明。
  "一位医生一生中可能最多看一万个病例,但一个AI模型可以把所有的病人都看过。"宋乐说,在药物设计的情况下,AI模型可以考虑到几十亿的蛋白质,这是任何人类专家都无法企及的数据量。同时,不同于每个专家常常在某个领域专长,难以跨越不同疾病种类去设计药物,xTrimo模型吸收了大量数据,有更好的泛化性。它还可以从不同的疾病信息里学到可迁移性知识,从而在遇到新的领域疾病时有更少的数据需求。
  目前,在蛋白质结构预测上,"好的情况下和真实结构相似度可以达到95%以上,有些比较难的蛋白可能相似度只有50%,但是很多蛋白我们发现做得很好。"宋乐预期未来3至5年内,这些模型的准确度都会达到80%以上。
  "我们看到现在一些试验体系,它自身相互印证的准确率可能有80%到90%,如果计算的模型能够达到上述阶段,那么三五年内就可以取代很多试验,基本上在计算机里搜寻最想要的设计之后,再做一两轮的验证和优化就可以了。"宋乐说。
  要实现这个目标,一个重要的挑战在于人才结构,生命科学大模型不单单需要AI人才,也有工程人才(比如高性能计算工程师)的参与,本身就是两个不同团队的合作。除此之外,其还需要一些很了解生物知识、对生物数据分析很有经验的人才。这种团队的内部合作不容易,但如果成功也会收效颇丰。
  宋乐提到一次成功经验。
  在靶点发现算法建设过程中,算法任务就是预测扰动后的细胞状态的变化,但这个任务可以直接利用的数据少,描述状态变化的信息是上万维度的基因信息,直接建模将会是一个难以完成的任务。
  而通过生物和AI算法研发人员的共同碰撞,一方面从AI算法出发,找到利用大量无监督单细胞数据形成预训练模型,抓住细胞千变万化的基因表达的内在联系,让预测扰动后的细胞状态有了一个好的基础。另一方面,从生物角度出发,将大量已有的生物通路数据详细归类和甄别,辅助AI建立基于细胞调控图谱的扰动传播模型。这两方面结合就建立了xTrimoCell模型,这也成为业界首创的免疫细胞扰动后功能变化预测模型,并用于靶点发现。
  这也是xTrimo体系最终能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,理解生物数据之间关联性,让大量可能没有标签、不是针对特定问题产生的数据转化成一类标准,并且在训练之后,成功在多个面向生命科学的重大任务中刷新行业纪录的重要支撑。

美军侦察机闯南海,解放军出动干扰机严阵以待,还有歼16战斗巡航根据航空管制信息自动播报系统ADSB信号显示,美国海军在6月22日至少出动两架P8A波塞冬海上反潜巡逻机,分别在东海和南海执行任务,根据全球防务观察掌握的资料,其中一架P8A波塞冬解放军29机连续进入台岛西南空域,运20U再次亮相,大批歼16紧跟当前解放军海军航空兵空军航空兵正在不断地派出空中力量前往台岛西南空域进行战巡飞行,之所以解放军军机会密集的出现在台岛西南空域,这也是因为近年来美国正在不断的派出侦察机穿越巴士海峡进9位架子比岁数大的明星滥用替身还抠图耍大牌耍到车站作为公众人物,明星们无论是镜头前还是镜头外都被观众粉丝们关注着。有的明星无论台上幕后,总是表现得温柔礼貌亲切近人,可也有一些明星脱离了镜头之后就摆起了明星架子,耍起大牌来,最后被路何家劲自家工厂饭堂招待客人,5菜一汤接地气,一桶饭直接摆上桌6月22日,资深男星何家劲在个人社交账号上分享了一组近照,并配文称,工厂吃午饭,接客,吃饱饱出发,见客。曝光的照片中,何家劲在自家工厂饭堂招待客人。他穿着白色Polo衫出镜,配上打请人喝酒不会说开场白,行家教你4句话,让客人刮目相看中国是一个礼仪之国,常言道成败就在酒桌!爱乐养生随着社会水平的发展,现代人无论是工作应酬还是与三五好友聚会都离不开酒的催化,酒桌上面对不同的人讲出来的话也会有所差距,语言是一门艺术2004年湖北残疾女孩溺亡案口插木棍牙打掉,16年后凶手现形一个十岁的女孩被人发现在邻居家屋外猪圈的废水池内,打捞上来时人已经没有呼吸了,令人不解的是小女孩的嘴里插着一根红色的木棍,但是因为小女孩生有残疾,走路容易摔倒,所以当时女孩的家人并读书哈萨克少女的驯鹰故事加拿大总督文学奖得主艾琳鲍的长篇小说屹立云端,近日由上海人民出版社学林出版社引进出版。小说聚焦青少年在成长过程中的心路历程,揭示了人性的本质与救赎,被誉为少年版追风筝的人。屹立云端沈阳土皇帝刘涌怒扇华仔枪伤警察,14名律师帮他减刑他被称沈阳土皇帝,中国黑社会老大中排名第三。他当过兵,救过人,倒腾过物资,是改革开放最先富裕起来的人。怒扇过华仔,枪伤过警察,在沈阳一手遮天。他就是东北黑帮教父刘涌善恶到头终有报,21年,江苏32岁女子婚后1月不和丈夫同房,告公公霸占,结局亮了别碰我,我身上正不干净呢。新婚之夜,新郎小孙刚想去牵新娘小张的手,就被呵斥得愣在了那里。窗外,闹新房的乡亲们刚刚被小孙的父亲老孙哄跑,新娘小张脸上的笑意就收敛了。小张不让小孙靠近她超实用!夏至养生饮食手册1化湿养脾湿气重,多吃鲤鱼赤小豆莴苣薏仁米扁豆冬瓜绿豆等2暑热没胃口,多吃苦味和酸味食材。苦味能除燥祛湿,清凉解暑,去火降燥,促进食欲等酸味有健脾开胃的作用3夏天水分流失多,多吃水黄瓜如何实现高产,4个步骤教你实现黄瓜自由农技科普大赛黄瓜要想高产优质多果长果期,就必须采取相应的措施,以满足黄瓜连作的需要。黄瓜也是如此。一些人种植了高质量的黄瓜,种植一次黄瓜后,经济效益显著提高。然而,一些朋友种植的黄
还记得安吉丽娜朱莉的女儿吗?现在长这样?哈喽,小橘子们!还记得安吉丽娜朱莉的女儿吗?几天之前,朱莉的大女儿希洛现身洛杉矶街头购物,不同于其他星二代的时尚打扮,希洛一身黑卫衣,穿着宽松肥大的休闲裤,整体以舒适感为主。一直以阿是要穴阿是穴,是个什么东东?!早在唐代孙思邈备急千金要方灸例中提及有阿是之法,言人有病痛,即令捏(掐)其上,若里(果)当其处,不问孔穴,即得便成(或)痛处,即云阿是,灸刺皆验,故曰阿是穴家乡味道等你来品尝中都大酒店推出十大特色菜来源杭州市临安区融媒体中心随着疫情防控政策的不断优化,旅游业正在逐步复苏中。作为我区唯一一家五星级酒店中都青山湖畔大酒店不断完善度假功能,推出十大特色菜,进一步打响美食在中都的品牌云办公改变工作习惯拓展产业赛道赋能数字经济来源人民网原创稿上班族通过云办公进行工作。受访者供图视频会议共享文档移动审批如今,上班族只需要一台电脑一部手机即可完成以往在办公室里的工作。中国互联网络信息中心发布的中国互联网络发参展包机包舱洽谈助力企业获得海外竞争机会央视网消息每年的12月份都是外贸企业抢占新一年订单的关键期。这两天,浙江启动千团万企拓市场抢订单行动,为来年外贸经济增长打响第一枪。这家衢州企业主要从事食品糖醇生产,将随团去法国巴村民被迫为鬼子带路,胡乱说山洞里有八路军物资,进洞后他后悔了1940年,当地一个村民名叫潘国林,被日本鬼子抓获后逼迫他带路攻打八路军。潘国林知道他如果不带路,就一定会被鬼子杀死,于是,他就带着日军在大山里面瞎溜达,想寻找机会脱身。他带着日军神舟十四降落后,伞绳没切断,为何工作人员手持刀锯冲向飞船?近年来中国航天的实力稳步提升,不仅自主完成空间站的建设任务,同时也具备独自进行月球探索火星探索的能力,甚至未来还计划展开载人登月的工作。此前,随着神舟十五号顺利升空,并且和天宫号完冬季排毒调养家常药膳,在家就能做,学起来冬三月,此谓闭藏冬不藏精,春必病温黄帝内经素问冬季寒冷,穿的多动得少吃的好,气血运行新陈代谢的速度顺应自然变得相对缓慢,是最容易蓄积脂肪和毒素的时期,不少人在冬季里会出现体重增加长苹果MacBookAir将迎来史诗级升级明年春天发布15。5寸大屏根据屏幕分析机构DSCC的专家RossYoung爆料,苹果正在研发一款15。5英寸显示屏的新款MacBookAir,最早将在明年春季上市。如果消息属实,这款苹果MacBookAir以认知反应测试为基础,探究认知反应能力对跨期决策的影响跨期决策是指个体对发生在不同时间点的成本和收益进行权衡,继而做出各种判断和选择的过程。具有不同认知水平的人往往在许多方面存在差异。但是认知对跨期决策究竟会产生怎样的影响,目前并没有苹果Appstore放开,苹果和用户都吃亏,只有游戏厂商才兴奋这几天,网上都在讲,苹果的Appstore可能要放开了,因为欧盟的数字法案规则苹果必须放开Appstore,要允许第三方应用商店,允许应用侧载于是媒体们狂欢,称这是时代性的胜利,苹