西湖大學用AI科學家,兩周完成了人類三年的科研量。


這個科學家,是一個名叫DeepScientist的AI系統,自己搗鼓出了5000多個科學想法,動手驗證了其中1100個,最后在三個前沿AI任務上,把人類科學家辛辛苦苦創造的SOTA紀錄給刷新了。
西湖大學文本智能實驗室(WestlakeNLP)發了篇論文,把這個能搞自主探索的AI科學家介紹給了全世界。

AI搞科研的歷史
AI搞科研的想法由來已久,但一路走來其實挺不容易的。
最早的那些系統,更像是工程師的輔助工具,在已經劃好的圈圈里干活。
比如有些AI專門用來復現別人的論文,像PaperBench;有些是解決機器學習工程里的早期問題,像Agent Laboratory。還有AlphaTensor這種,靠海量的試錯來優化代碼性能。它們都很厲害,但都在一個既定的科學范式里做優化,從來沒想過去質疑這個范式本身對不對。
后來,又誕生了各種科學家專用的AI工具。
CycleResearcher幫你寫論文,DeepReview幫你審稿,co-scientists幫你頭腦風暴產生假設。但這些工具都只解決科研流程里一小塊孤立的問題。從失敗中學習、調整方向這種最關鍵的活兒,還得人來干。
在這些專用工具的基礎上,有人開始琢磨,能不能把整個流程串起來,搞一個全自動的、端到端的AI科學家。
開創性的工作,比如AI Scientist系統,確實證明了AI能跑通整個研究循環,也能發現點新東西。但它們有個普遍的問題,就是探索策略很迷茫,沒有一個明確的、扎根于領域重大挑戰的科學目標。它們可能會發現一些東西,但這些發現看起來沒啥實際的科學價值。
DeepScientist的出現,顯得如此與眾不同。
它是第一個能用一個閉環、迭代的流程,發現超越人類最先進方法的自動化科研系統。它的探索不是瞎蒙,而是有目標、有洞察的。它會先去分析現有的人類SOTA方法到底有什么公認的短板,然后通過故障歸因來確保自己提出的新想法既新穎,又有科學意義。
AI科學家干活的方式
DeepScientist把科學發現這件事,建模成了一個優化問題。
想象一個巨大無比、什么都可能有的空間,里面包含了所有可能的研究方法。你的目標,就是在這個空間里找到那個最牛的方法,它能帶給你最大的科學價值。這個價值由一個黑盒函數決定。
問題是,在前沿科學領域,驗證任何一個想法的成本都高得嚇人。你每試一個想法,就相當于跑一個完整的研究周期,寫代碼、做實驗、分析結果,動不動就要消耗掉海量的計算資源。比如在前沿大語言模型領域,評估一次可能就要消耗10的16次方FLOPs的算力。這種情況下,想靠暴力搜索或者隨機亂試,是不可能的。
DeepScientist想了個聰明的辦法,它設計了一個分層的、三階段的探索循環。
