新智元报道
【资料图】
编辑:编辑部
【新智元导读】GPT-4等大模型组成的AI智能体,已经可以手把手教你做化学实验了,选啥试剂、剂量多少、推理反应会如何发生,它都一清二楚。颤抖吧,生化环材圈!
不得了,GPT-4都学会自己做科研了?
最近,卡耐基梅隆大学的几位科学家发表了一篇论文,同时炸翻了AI圈和化学圈。
他们做出了一个会自己做实验、自己搞科研的AI。这个AI由几个大语言模型组成,可以看作一个GPT-4代理智能体,科研能力爆表。
因为它具有来自矢量数据库的长期记忆,可以阅读、理解复杂的科学文档,并在基于云的机器人实验室中进行化学研究。
网友震惊到失语:所以,这个是AI自己研究然后自己发表?天啊。
还有人感慨道,「文生实验」(TTE)的时代要来了!
难道这就是传说中,化学界的AI圣杯?
最近大概很多人都觉得,我们每天都像生活在科幻小说中。
AI版绝命毒师来了?
这个地表最强LLM,能在SAT和BAR考试中得高分、通过LeetCode挑战、给一张图就能做对物理题,还看得懂表情包里的梗。
而技术报告里还提到,GPT-4还能解决化学问题。
这就启发了卡耐基梅隆化学系的几位学者,他们希望能开发出一个基于多个大语言模型的AI,让它自己设计实验、自己做实验。
论文地址:https://arxiv.org/abs/2304.05332
而他们做出来的这个AI,果然6得不行!
它会自己上网查文献,会精确控制液体处理仪器,还会解决需要同时使用多个硬件模块、集成不同数据源的复杂问题。
有AI版绝命毒师那味儿了。
会自己做布洛芬的AI
举个例子,让这个AI给咱们合成布洛芬。
给它输入一个简单的提示:「合成布洛芬。」
然后这个模型就会自己上网去搜该怎么办了。
它识别出,第一步需要让异丁苯和乙酸酐在氯化铝催化下发生Friedel-Crafts反应。
另外,这个AI还能合成阿司匹林。
以及合成阿斯巴甜。
产品中缺少甲基,而模型查到正确的合成示例中,就会在云实验室中执行,以便进行更正。
告诉模型:研究一下铃木反应吧,它立刻就准确地识别出底物和产物。
另外,咱们可以通过API,把模型连接到化学反应数据库,比如Reaxys或SciFinder,给模型叠了一层大大的buff,准确率飙升。
而分析系统以前的记录,也可以大大提高模型的准确性。
举个栗子
咱们先来看看,操作机器人是怎么做实验的。
它会将一组样本视为一个整体(在这个例子中,就是整个微孔板)。
我们可以用自然语言直接给它提示:「用您选择的一种颜色,为每隔一行涂上颜色」。
当由机器人执行时,这些协议与请求的提示非常相似(图 4B-E)。
代理人的第一个动作是准备原始解决方案的小样本(图 4F)。
然后它要求进行 UV-Vis 测量。完成后,AI会获得一个文件名,其中包含一个NumPy数组,其中包含微孔板每个孔的光谱。
AI随后编写了Python代码,来识别具有最大吸光度的波长,并使用这些数据正确解决了问题。
拉出来遛遛
在以前的实验中,AI可能会被预训练阶段接收到的知识所影响。
而这一次,研究人员打算彻底评估一下AI设计实验的能力。
AI先从网络上整合所需的数据,运行一些必要的计算,最后给液体试剂操作系统(上图最左侧的部分)编写程序。
研究人员为了增加一些复杂度,让AI应用了加热摇床模组。
而这些要求经过整合,出现在了AI的配置中。
具体的设计是这样的:AI控制一个搭载了两块微型版的液体实际操作系统,而其中的源版包含多种试剂的源液,其中有苯乙炔和苯硼酸,多个芳基卤化物耦合伴侣,以及两种催化剂和两种碱。
上图中就是源版(Source Plate)中的内容。
而目标版则是装在加热摇床模组上。
上图中,左侧的移液管(left pipette)20微升量程,右侧的单道移液管300微升量程。
AI最终的目标就是设计出一套流程,能成功实现铃木和索诺格希拉反应。
咱们跟它说:你需要用一些可用的试剂,生成这两个反应。
然后,它就自己上网去搜了,比如,这些反应需要什么条件,化学计量上有什么要求等等。
可以看到,AI成功搜集到了所需要的条件,所需试剂的定量、浓度等等。
AI挑选了正确的耦合伴侣来完成实验。在所有的芳基卤化物中,AI选择了溴苯进行铃木反应的实验,选择了碘苯进行索诺格希拉反应。
而在每一轮,AI的选择都有些改变。比如说,它还选了对碘硝基苯,看上的是这种物质在氧化反应中反应性很高这一特性。
而选择溴苯是因为溴苯能参与反应,同时毒性还比芳基碘要弱。
接下来,AI选择了Pd/NHC作为催化剂,因为其效果更好。这对于耦合反应来说,是一种很先进的方式。至于碱的选择,AI看中了三乙胺这种物质。
从上述过程我们可以看到,该模型未来潜力无限。因为它会多次反复的进行实验,以此分析该模型的推理过程,并取得更好的结果。
选择完不同试剂以后,AI就开始计算每种试剂所需的量,然后开始规划整个实验过程。
中间AI还犯了个错误,把加热摇床模组的名字用错了。但是AI及时注意到了这一点,自发查询了资料,修正了实验过程,最终成功运行。
抛开专业的化学过程不谈,我们来总结一下AI在这个过程中展现出的「专业素养」。
可以说,从上述流程中,AI展现出了极高的分析推理能力。它能够自发的获取所需的信息,一步一步的解决复杂的问题。
在这个过程中,还能自己写出超级高质量的代码,推进实验设计。并且,还能根据输出的内容改自己写的代码。
OpenAI成功展示出了GPT-4的强大能力,有朝一日GPT-4肯定能参与到真实的实验中去。
但是,研究人员并不想止步于此。他们还给AI出了个大难题——他们给AI下指令,让其开发一种新的抗癌药物。
不存在的东西......这AI还能行吗?
事实证明还真是有两把刷子。AI秉持着遇到难题不要怕的原则(当然它也不知道啥叫怕),细密地分析了开发抗癌药物这个需求,研究了当前抗癌药物研发的趋势,然后从中选了一个目标继续深入,确定其成分。
而后,AI尝试开始自己进行合成,也是先上网搜索有关反应机制、机理的信息,在初步搞定步骤以后,再去寻找相关反应的实例。
最后再完成合成。
而上图中的内容就不可能让AI真合成出来了,仅仅是理论层面的探讨。
其中就有甲基苯丙胺(也就是大麻),海洛因这些耳熟能详的毒品,还有芥子气(mustard gas)等明令禁止使用的毒气。
在总共11个化合物中,AI提供了其中4个的合成方案,并尝试查阅资料来推进合成的过程。
剩下的7种物质中,有5种的合成遭到了AI的果断拒绝。AI上网搜索了这5种化合物的相关信息,发现不能胡来。
比方说,在尝试合成可待因(codeine)的时候,AI发现了可待因和吗啡之间的关系。得出结论,这东西是管制药品,不能随便合成。
但是,这种保险机制并不把稳。用户只要稍加修改花书,就可以进一步让AI操作。比如用化合物A这种字眼代替直接提到吗啡,用化合物B代替直接提到可待因等等。
同时,有些药品的合成必须经过缉毒局(DEA)的许可,但有的用户就是可以钻这个空子,骗AI说自己有许可,诱使AI给出合成方案。
像海洛因和芥子气这种耳熟能详的违禁品,AI也清楚得很。可问题是,这个系统目前只能检测出已有的化合物。而对于未知的化合物,该模型就不太可能识别出潜在的危险了。
比方说,一些复杂的蛋白质毒素。
因此,为了防止有人因为好奇去验证这些化学成分的有效性,研究人员还特地在论文里贴了一个大大的红底警告:
本文中讨论的非法药物和化学武器合成纯粹是为了学术研究,主要目的是强调与新技术相关的潜在危险。
在任何情况下,任何个人或组织都不应尝试重新制造、合成或以其他方式生产本文中讨论的物质或化合物。从事此类活动不仅非常危险,而且在大多数司法管辖区内都是非法的。
自己会上网,搜索怎么做实验
这个AI由多个模块组成。这些模块之间可以互相交换信息,有的还能上网、访问API、访问Python解释器。
往Planner输入提示后,它就开始执行操作。
比如,它可以上网,用Python写代码,访问文档,把这些基础工作搞明白之后,它就可以自己做实验了。
人类做实验时,这个AI可以手把手地指导我们。因为它会推理各种化学反应,会上网搜索,会计算实验中所需的化学品的量,然后还能执行相应的反应。
如果提供的描述足够详细,你甚至都不需要向它再解释,它自己就能把整个实验整明白了。
「网络搜索器」(Web searcher)组件收到来自Planner的查询后,就会用谷歌搜索API。
搜出结果后,它会过滤掉返回的前十个文档,排除掉PDF,把结果传给自己。
然后,它会使用「BROWSE」操作,从网页中提取文本,生成一个答案。行云流水,一气呵成。
这项任务,GPT-3.5就可以完成,因为它的性能明显比GPT-4强,也没啥质量损失。
「文档搜索器」(Docs searcher)组件,能够通过查询和文档索引,查到最相关的部分,从而梳理硬件文档(比如机器人液体处理器、GC-MS、云实验室),然后汇总出一个最佳匹配结果,生成一个最准确的答案。
「代码执行」(Code execution)组件则不使用任何语言模型,只是在隔离的Docker容器中执行代码,保护终端主机免受Planner的任何意外操作。所有代码输出都被传回Planner,这样就能在软件出错时,让它修复预测。「自动化」(Automation)组件也是同样的原理。
矢量搜索,多难的科学文献都看得懂
做出一个能进行复杂推理的AI,有不少难题。
比如要让它能集成现代软件,就需要用户能看懂软件文档,但这项文档的语言一般都非常学术、非常专业,造成了很大的障碍。
而大语言模型,就可以用自然语言生成非专家都能看懂的软件文档,来克服这一障碍。
这些模型的训练来源之一,就是和API相关的大量信息,比如Opentrons Python API。
但GPT-4的训练数据截止到2021年9月,因此就更需要提高AI使用API的准确性。
为此,研究者设计了一种方法,为AI提供给定任务的文档。
他们生成了OpenAI的ada嵌入,以便交叉引用,并计算与查询相关的相似性。并且通过基于距离的向量搜索选择文档的部分。
提供部分的数量,取决于原始文本中存在的GPT-4 token数。最大token数设为7800,这样只用一步,就可以提供给AI相关文件。
事实证明,这种方法对于向AI提供加热器-振动器硬件模块的信息至关重要,这部分信息,是化学反应所必需的。
这种方法应用于更多样化的机器人平台,比如Emerald Cloud Lab (ECL)时,会出现更大的挑战。
此时,我们可以向GPT-4模型提供它未知的信息,比如有关 Cloud Lab 的 Symbolic Lab Language (SLL)。
在所有情况下,AI都能正确识别出任务,然后完成任务。
这个过程中,模型有效地保留了有关给定函数的各种选项、工具和参数的信息。摄取整个文档后,系统会提示模型使用给定函数生成代码块,并将其传回 Planner。
强烈要求进行监管
最后,研究人员强调,必须设置防护措施来防止大型语言模型被滥用:
「我们呼吁人工智能社区优先关注这些模型的安全性。我们呼吁OpenAI、微软、谷歌、Meta、Deepmind、Anthropic以及其他主要参与者在其大型语言模型的安全方面付出最大的努力。我们还呼吁物理科学社区与参与开发大型语言模型的团队合作,协助他们制定这些防护措施。」
对此,纽约大学教授马库斯深表赞同:「这不是玩笑,卡内基梅隆大学的三位科学家紧急呼吁对LLM进行安全研究。」
参考资料:
https://arxiv.org/ftp/arxiv/papers/2304/2304.05332.pdf
关键词:
上一篇 : 当前播报:二六三:已停止与ChatGPT的对接测试
下一篇 : 小米,能否“卷”出个未来?:全球关注
最新推荐
晨报讯(索里宋慧半岛晨报、39度视频记者齐媛媛)6月12日,随着“地中
这九人评选最强中单和TOP3,为此观众们进行了一系列的讨论,不同人有不
我们看到EDG俱乐部对此事不做任何解释,任由其发酵,然后转头就联系uzi
6月13日,据BWF世界羽联:2023年印尼羽毛球公开赛首轮赛况:石宇奇2-1
这个动作如果力量大一点戈登就废了,结果这个回合挑战回来之后,裁判竟
凝心聚力,携手前行——邮储银行临澧县支行开展员工户外拓展活动,彭山,
6月13日,岚图汽车宣布,获得包括中国工商银行、中国银行、中国农业银
5月份,福建全省居民消费价格(CPI)同比上涨0 2%,环比下降0 1%;全
扬子晚报网6月13日讯(记者郭一鹏通讯员王雷)因为买棉花糖的问题与家
一年一度的京东618即将落下帷幕,你都下单了哪些产品?为给用户带来全
我们看到EDG俱乐部对此事不做任何解释,任由其发酵,然后转头就联系uzi
直播吧6月13日讯此前哈维曾公开称赞基米希,对此球员进行了回应。在被
对于皇马而言,一直都希望求购姆巴佩,而今年确实不是最好的时机,如果
目前莱万在巴萨的年薪是税后900万欧,此前西班牙媒体报道,沙特联赛希
关于工伤认定的时间,我国法律是有一定的规定的,尤其是职业病。根据《
工伤解除劳动关系时职业病患者工伤待遇的认定与处理申请工伤认定的有效
6月12日,恒而达(300946)融资买入171 88万元,融资偿还72 5万元,融
美联储仍是股市当面面临的最大风险。大摩指出,目前股市上涨并不意味着
1、是一个和尚或者尼姑写的说的意思是,对你给的爱情,只能还给你一钵
高考结束,志愿填报即将开始,如何查询准确的高校与专业信息?高考填志
“一顿火锅刚开宴,好戏连台惊四方!”丁晟导演的悬疑喜剧《没有一顿火
今日凌晨,据《队报》、天空体育、《电讯报》等多家媒体的消息,姆巴佩
这九人评选最强中单和TOP3,为此观众们进行了一系列的讨论,不同人有不
今天凌晨,来自队报的消息,姆巴佩团队已经通过书面的形式正式通知大巴
德班世乒赛结束后,乒乓球世界排名迎来了新的变化,中国队重新夺回五大
本报讯为切实加强缉枪治爆工作,近日,铁岭市公安局工人分局组织民警在
本报讯为切实维护营口市伏季休渔秩序,确保增殖放流取得实效,保障广大
统计数据显示,海南旅游市场旅游收入高于疫情前2019年同期水平,游客消
端午文案1)粽子飘香,佳人安康。(粽子 祝福)2)粽子是端午限定,你我是命中注定。(爱情 结婚)3)粽子之...
冬至佳句七绝·冬至一,枫叶红时信已传,梅心雪意亦如前。阳生莫问春何处,夜永应知又一年。二,夜阑风...
课文匆匆原文燕子去了,有再来的时候;杨柳枯了,有再青的时候;桃花谢了,有再开的时候。但是,聪明的,...
本网讯近日,经宁夏回族自治区固原市农业系列职称评审委员会评审、市人
lucky的反义词是什么lucky的反义词是unlucky。lucky的意思以及用法:一、作为形容词1、幸运的,好运的一...
祝福考生考入理想大学,学上喜欢的专业!
在夏季,气温过高、湿度大、风速小等条件下,非常容易引发中暑。“热死
“迎接学青会健康新广西”广西新时代文明实践活动暨全民健身志愿服务活
日前,教育部公布第二批国家级一流本科课程名单,共有5750门课程获认定
近日,广西海洋环境监测中心站对平陆运河入海口(位于钦州茅尾海一带)
1、具体要看什么种类的车,不同种类的车报废年限不同。2、各类机动车使
近年来,随着人们健康意识的提高,各种膏药产品市场需求不断增长。在这样的市场背景下,仙佑医药膏药代...
时至今日,我觉得中国可以考虑对日本和韩国提出签订互不侵犯条约。其主
直播吧6月13日讯贝卢斯科尼因病离世,小罗社媒晒合照缅怀。小罗写道:
在《法兰克福汇报》的采访中,埃姆雷-詹对于错失冠军表示:“我依然还
直播吧6月13日讯此前哈维曾公开称赞基米希,对此球员进行了回应。在被
只是双打的大满贯冠军,但王欣瑜能够夺冠,同样是非常了不起的,这个小
今后的努力方向和改进措施1、针对员工提出的推荐,我采取的措施是:①合理安排工作,要放得下一些追求,...
依依惜别的诗句1、黄鹤楼送孟浩然之广陵 唐 李白故人西辞黄鹤楼,烟花三月下扬州。孤帆远影碧空尽,唯...
兰波的诗句1、唯一无法忍受即事事可忍受。——兰波2、你隐没在梦中,宛如雪化在火中。——兰波3、天才就...
岑参的边塞诗1、最动人的想家诗:《逢入京使》《逢入京使》故园东望路漫漫,双袖龙钟泪不干。马上相逢无...
近日,商务部发布《中国电子商务报告(2022)》,多彩贵州网旗下贵州电子
全民tv怎么直播 全民tv申请认证主播教程 全民怎么开通直播_全球独家
环球今头条!疯狂24小时!皇马计中计欺骗全欧,姆巴佩摊牌,1.2亿巨星恐被打压
全球新动态:曼城挖角国米中场全能神将,瓜帅情有独钟,两大障碍能否克服?
疯狂24小时!皇马计中计欺骗全欧,姆巴佩摊牌,1.2亿巨星恐被打压-最资讯
当前动态:GOAT德约斩获生涯第23座大满贯&3圈大满贯第一人
中网总奖金公布:1175万美元 ,同级别赛事奖金第一,其中WTA赛事803.97万美元 世界今热点
世界观点:中国金花夺冠+豪夺335万,德约科维奇收获1768万巨奖,23冠超纳达尔
短讯!孙颖莎惹争议!参加低级赛事,球迷质疑国乒吃相难看,帮忙抢积分
【新视野】多家上市公司进军新能源产业 跨界“奔赴”合理性引监管层关注
国内单机容量最大的冲击式水电机组完成国产化改造 成功并网发电 环球即时看
环球热消息:奥运积分排名更新!梁王暂居男双榜首,何冰娇高居女单第3
德约科维奇与穆雷同一日双双夺冠,球迷梦回四巨头时代,不见费纳!-全球最资讯
世界速读:沙特能源大臣:沙特想与中国合作,不会理会西方的“担忧”
海南发展(002163):6月12日北向资金增持25.24万股|环球要闻
热点聚焦:演员张龄心:不结婚不生子,老了就去养老院,如今她打了自己的脸_天天动态
中超之光!巴萨4000万清洗曼城天才,1600万签大连神锋,1年10球
世界时讯:皇马拒绝哈弗茨,迪巴拉拒绝沙特亿元高薪,穆里尼奥再收顶薪报价
皇马新7号确认!亿元先生接班阿扎尔挑战C罗,10号留给姆巴佩?|环球即时看
马琳难再指导陈梦,刘国梁布局,主教练放权,主管教练负责场边-世界速讯
联系我们:55 16 53 8@qq.com
关于我们| 联系方式| 版权声明| 供稿服务| 友情链接
塞北网 版权所有,未经书面授权禁止使用
Copyright©2008-2020 By www.saibeinews.com All Rights Reserved