2026-03-13 08:12 点击次数:56
芯片袼褙 AMD最新推出科研 AI,o1-preview 竟成天选打工东谈主?!
防护看,只需将科研 idea 和有关条记一股脑丢给 AI,接洽叙述致使是代码就能立马出炉了。

这个 AI 系统代号" Agent Laboratory ",全程由 LLM(谎言语模子)驱动完成文献综述、实验,以及叙述,一站式措置科学接洽。
对了,在 GPT-4o、o1-mini 以及 o1-preview 这几位科研助理应中,作家们发现o1-preview产出的接洽效力最好。
况且举座上,与现存步履比较,由 AI 生成的代码唐突终了 SOTA 性能。
同期,如果东谈主类在每个过程予以反映,接洽的举座质料也会大大提高。

总体而言,与之前的自主接洽步履比较,Agent Laboratory 将接洽用度减少了84%。
Okk,这也再次印证了东谈主们的猜测,东谈主类与 AI 协同将带来更具性价比的神态加快科研。

临了,咱们也扒了扒论文作家们,截至不测发现7/9 为华东谈主面目——
从文献到叙述,AMD 科研 AI 一站式措置
先来看 Agent Laboratory 是如何使命的。
如图所示,主要有三个阶段:文献综述→实验→撰写叙述,每一阶段皆有不同的任务、用具和 AI Agent 变装(比如 PhD、博士后 Postdocto 等)。

PhD Student 负责文献综述
伸开来说,在文献综述阶段,PhD Student 这一变装负责主要执行。它诓骗 arXiv API 来检索有关论文,并进行三个动作:
一捏纲目:检索出与运转查询最有关的前 20 篇论文的纲目;
二捏单篇全文:关于某些具有热切参考价值的论文,索求其完好意思内容;
三添加论文:将经过筛选的论文纲目或全文纳入到文献综述中;
需要防护的是,临了一个过程并非一次性完成,而是一个迭代的过程。
换句话说,只须当通过 add paper(添加论文)号令达到指定数目(N = max)的有关文本时,文献综述才会最终详情。
接下来参加实验要津。
如图所示,主要有四个过程:磋议制定→数据准备→运行实验→截至说明。

PhD Student+Postdoc 通过对话制定实验磋议
简便说,左证综述截至和既定接洽磋议,PhD Student+Postdoc和会过对话来制定详备、可执行的实验磋议。
磋议一般包括具体实验设施、选用何种机器学习模子、筛选合适的数据集以及磋议实验的高等历程框架等谬误要素。
在达成一问候见后,Postdoc 这一变装会使用 plan 号令提交磋议,此磋议将行为后续通盘实验有关子任务的热切步履指南。
ML Engineer 用 Python 准备数据
然后ML Engineer会不才一阶段用 Python 来处理和准备实验所需的数据。
过程中,这一变装不错诓骗 search HF 号令在 HuggingFace 数据辘集进行搜索,以获取合适的数据资源。
写完代码后,ML Engineer 会先将代码通过 Python 编译器进行查验,确保莫得编译特别。若存在问题,则会进行迭代修改,直至代码唐突告成运行且无特别,最终使用 submit code 号令提交经过考据的数据准备代码,为后续实验提供可靠的数据基础。
ML Engineer 借助专用模块运行实验
搓搓手,底下认真参加实验运行要津。
玄虚而言,ML Engineer 会借助mle-solver这一成心设想的模块,来实施和执行先前制定的实验磋议。
mle-solver 的使命历程如下:
号令执行
图(A)部分,从一组事先惊奇的高性能表率中采样出一个运转表率,在后续的迭代过程中,通过 EDIT 和 REPLACE 两种操作对表率进行不竭优化。
EDIT 允许在指定的代码行范畴内,用重生成的代码替换原有代码,从而终了对表率功能的局部疗养;REPLACE 则更为激进,它会生成一个全新的 Python 文献,用于在需要对表率结构或举座逻辑进行紧要改革时使用。
代码执行
图(B)部分,执行代码号令后,新表率会立即通过编译器进行查验,以识别和处理可能出现的运行时特别。
若表率生效编译,将左证事先设定的评估表率对其进行评分,并与现存的表率进行比较。若新表率得分更高,则会更新最优表率列表。
若代码未能通过编译,ML Engineer 会尝试进行最多 Nrep(在实验中设定为 3 次)的设立操作,若仍无法解决问题,则会烧毁现时表率,从头采纳或生成新的代码进行替换。
表率评分
图(C)部分,接纳 LLM 奖励模子对生效编译的代码进行评分。
该模子会综合探究接洽磋议的磋议、生成的代码逻辑以及内容的实验输出截至等多方面要素,在0 到 1 的范畴内对表率进行量化评估。得分越高,默示表率与运转接洽磋议的契合度越高,唐突更有用地终了预期功能。
自我反想
图(D)部分,不管代码执行截至是生效已经失败,mle-solver 皆会基于实验截至或遭受的特别信号进行自我反想。
如果表率编译失败,它会想考如安在后续的迭代中幸免或解决访佛的问题;若表率生效编译并获取评分,它会分析如何进一步提高表率的性能和得分,通过这种不竭学习和翻新的机制,确保系统唐突连接进步生成代码的质料和踏实性。
性能踏实化
图(E)部分,为退缩性能波动,mle-solver 接纳了两种谬误机制。
一是顶级表率采样,通过惊奇一个高质料表率的贴近,在执行号令前当场从中采样一个表率,这么既保证了表率的万般性,又能确保所选用的表率具有较高的质料基准;
二是批量并行化,在每个求解设施中,同期进行多个代码修改操作,并采纳其中性能最好的修改截至来替换现时最优表率贴近中得分最低的表率。
PhD Student+Postdoc 共同征询分析实验截至
执行驱散后,PhD Student+Postdoc 会深远探讨 mle-solver 生成的实验截至,和谐自己的专科学问和前期的接洽配景,对截至进行全面解读。
一朝两边觉得截至合理且具备学术价值,Postdoc 就会使用 interpretation 号令提交该说明,为后续的叙述撰写阶段提供谬误的内容基础。
PhD Student+Professor 撰写完好意思叙述
参加临了的叙述撰写要津,PhD Student 和 Professor 和会过一个名为 "论文求解器"(paper-solver)的成心模块完成任务。
需要辅导,paper - solver并非用来十足取代学术论文撰写历程,而所以一种东谈主类可读的局势归来已完成的接洽,以便使用 " Agent Laboratory " 的接洽东谈主员了解已取得的效力。

频繁来说,其使命历程包括以下设施:
运转叙述框架生成:生成合适学术表率结构且含占位符、餍足 LaTeX 编译和学术旧例的叙述运转框架;
arXiv 接洽:可按文献综述接口拜访 arXiv 拓展文献贵寓完善叙述(非强制但很有匡助);
裁剪叙述:用 EDIT 号令按照多要素对论文 LaTeX 代码行精准迭代裁剪并编译考据,进步叙述质料;
论文评审:用 LLM Agent 模拟 NeurIPS 历程多维度评估论文,测试准确性接近东谈主类评审员;
完善论文:由三个评审 Agent 生成见解,PhD Student 依此判断是否校正,必要时回溯前期要津修改至达标。
o1-preview 科研才调最强
通过以上三个主要阶段,Agent Laboratory 就完成了通盘这个词科研历程。
接下来,接洽东谈主员用 GPT-4o、o1-mini 以及 o1-preview 来评估实验质料、叙述质料和有用性,这 3 个 AI 在莫得东谈主类任何参与的情况下完成了 15 篇论文。
然后世俗东谈主(东谈主工审稿东谈主)被条目左证以下五个问题对它们进行 1 — 5 评分,截至如图所示。
综合来看 o1-preview 对接洽最有匡助, o1-mini 的实验质料得分最高, 而 GPT-4o 全面垫底。
1、话语模子是否施展出剖析偏差,比如阐述偏差或锚定偏差?
2、图像 Transformer 相较于卷积相聚,对像素噪声的敏锐度是更高已经更低?
3、当被条目进行鉴识会诊时,话语模子在医学问答(MedQA)上的准确性会提高吗?
4、在多项采纳题基准测试中,话语模子对词序敏锐吗?
5、性别变装是否会影响话语模子回复数学问题的准确性?

然后作家们还探讨了东谈主工审稿与自动审稿的区别有多大。
二者相反权贵,且自动审稿倾向于高估论文分数。
具体来说,与平均水平的 NeurIPS 论文得分比较,自动审稿平均为 6.1/10,东谈主工审稿为 3.8/10。

而在 GitHub,作家们也清晰了让接洽效果更好的技能。
撰写详备的条记;
使用更浩大的模子;
另外,如果用户丢失程度、断开互联网或子任务失败,不错使用「查验点收复使命程度」功能。
致使也复旧切换到中语口头。

背后团队过半数是华东谈主
临了先容一下 Agent Laboratory 背后的作家们,他们果然全是在前年加入 AMD。
Samuel Schmidgall,现在是霍普金斯大学电气与狡计机工程博士,亦然 DeepMind 学生接洽员。
从前年 10 月脱手,他在 AMD 进行话语 Agent方面的实习。
更早之前还在好意思国舟师接洽实验室探索机器东谈主强化学习,以及在斯坦福大学接洽心血管外科方面的话语 & 视觉大模子。

Yusheng Su,前年 8 月加入 AMD GenAI 团队的接洽科学家,专注于模子数据、模子架构和检修效力优化。
他 2019 年毕业于政事大学(base 台北),后获取清华大学 CS 博士学位(时辰接洽大模子预检修)。
更早之前,他还在微软云狡计部门有过一段实习资历。

Ze Wang,前年 5 月加入 AMD GenAI 团队的应用接洽科学家。
他 2017 年本科毕业于北航电气与电子工程专科,后别离于好意思国杜克大学和普渡大学读了电子与狡计机工程 PhD。
更早之前,还在 Facebook AI 和微软实习过。

Ximeng Sun,前年 6 月加入 AMD 的应用科学家。
她 2018 年毕业于密歇根大学拉克哈姆接洽生院的狡计机专科,后于波士顿大学取得 CS 博士学位。
加入 AMD 之前,她前后在 IBM、谷歌和 Meta 进行了实习。

Jialian Wu ( 吴嘉濂 ) ,前年 4 月加入 AMD GenAI 团队的接洽科学家。
他在 2019 年本硕毕业于天津大学电子工程专科,后于纽约州立大学布法罗分校读完 CS 博士。
加入 AMD 之前,他只在高通有过一段全职资历。更早之前则在亚马逊和微软实习过。

Xiaodong Yu(于晓栋),前年 8 月加入 AMD GenAI 团队的接洽科学家,专注于学问检索 / 针织度、长文本交融、数学推理以及 LLM/VLM 检修等。
他 2015 年毕业于上海交大电子与电气工程专科,后赴好意思国伊利诺伊大学香槟分校和宾大攻读硕博。
念书时辰,他也在亚马逊、微软等机构实习过。

Jiang Liu,前年 4 月加入 AMD GenAI 团队的接洽员,标的为开发通用 AI 模子。
他 2019 年本科毕业于清华大学自动化专科,同期也在五谈口金融学院学习,后于约翰斯 · 霍普金斯大学读完电子与狡计机专科博士。
加入 AMD 之前,他在 AWS 和微软进行了谎言语模子方面的实习。

Zicheng Liu,前年年头入职 AMD 担任高等工程总监,接洽趣味趣味为视觉话语学习、3D 东谈主体和手部重建、动态卷积和东谈主类行为识别。
在这之前,他在微软使命了 27 年,主要负责料理狡计机视觉科学组。
他已经多个海外会议的手艺委员会成员,况且是《视觉传达与图像默示》杂志主编等。

Emad Barsoum,负责 AMD 生成式 AI 方面的副总裁,加入 AMD 1 年多。
曾在微软担任团队工程司理 / 架构师,共同参与创建了ONNX 表率。这是一个绽开神经相聚局势交换磋议,在 2017 年由微软和 Facebook 共同发起,它使得数据科学家和开发者不错将不同的深度神经相聚框架开发的模子,顺利部署到上亿的 Windows 开辟中。
加入 AMD 之前,他也在芯片制造公司 Cerebras 负责引导 AI 团队,主如果检修谎言语模子和视觉模子。

论文:
https://arxiv.org/pdf/2501.04227
代码:
https://github.com/SamuelSchmidgall/AgentLaboratory开yun体育网
Powered by kaiyun体育网页版登录·官方网站 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群 © 2013-2024