AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI

ChainNewsAbmedia

賓州華頓商學院教授 Ethan Mollick 於 4/25 的 X 平台貼文提出一個對學術界具強烈衝擊的觀察:當前的 AI agent 已經能在沒有原始論文與沒有原始碼的情況下,僅憑公開的方法描述與資料,獨立重現複雜的學術研究結果。Mollick 進一步指出,這些 AI 重現的版本與原論文有出入時,「錯誤往往出在人類論文本身,而非 AI」。這是科研可重現性危機在生成式 AI 時代的一個實質轉折—過去需要昂貴人力才能進行的同行驗證,正在被 AI 大規模、低成本完成。

Claude 重現多篇論文,再以 GPT-5 Pro 雙重驗證

Mollick 在他的 OneUsefulThing 部落格與本次推文中,描述了他對 Claude 的具體實驗:把一篇學術論文交給 Claude,讓它打開存檔、整理檔案、把統計用的 STATA 程式碼自動轉換為 Python,再逐一執行論文中的所有發現。Claude 完成後,他再用 GPT-5 Pro 對同一份重現結果做第二輪檢查。多篇論文被以同樣的方式測試,結果普遍成功,僅在資料檔案過大或原始 replication data 本身有問題時受阻。

對學術界而言,這個流程過去通常需要研究助理花費數週甚至數月。Mollick 描述的時間規模是一個下午到一天,且運行成本只有商用 LLM API 的 token 費用。

錯誤多在人類原文,不是 AI

更具爭議性的是 Mollick 對「誰錯了」的判斷。他在推文中明言,當 AI 重現結果與原論文不一致時,多數情況不是 AI 弄錯,而是原論文有資料處理錯誤、模型誤用、或結論超出資料支撐的範圍。心理學、行為經濟學、管理學等社會科學近十年內已出現多次重大可重現性危機事件,最有名的是 2015 年 Open Science Collaboration 的大型重現研究,僅約 36% 的心理學論文結果能被獨立重現。AI agent 把這個檢驗過程從「需要人力配比」推到「可被普遍執行」的邊界。

學會仍禁 AI 入審稿,制度落後技術

Mollick 在另一則 4/25 推文中具體點名其所屬領域最大的學會 Academy of Management 仍明文禁止 AI 進入論文審稿流程。他引用既有研究指出,AI 審稿在準確度、一致性與偏見控制上已優於部分傳統人類審稿人,因此「禁止」這個立場可能反向加重既有審稿系統的失靈。這種制度與技術之間的落差,是接下來 1–2 年學術出版界、學會與資助機構都必須面對的政策議題。

對讀者而言,這場辯論並非局限於學界。當 AI agent 能即時驗證研究發現,產業界的研究引用、政策報告、財務決策中的學術根據,將進入一個「結論是否承受得住獨立 AI 重現」的新檢驗門檻。對應 Mollick 在另一則推文的補充,他認為政府是唯一能在工具強度持續上升時為這個檢驗機制定錨的單位—而政策設計的複雜度,將同步成為 AI 治理討論中相對被忽視的一條主軸。

這篇文章 AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI 最早出現於 鏈新聞 ABMedia。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Articoli correlati

a16z Crypto 研究報告:AI 代理 DeFi 漏洞利用率達 70%

根據 a16z Crypto 於 4 月 29 日發布的研究報告,AI 代理在配備結構化領域知識的條件下,重現以太坊價格操縱漏洞的成功率達 70%;在無任何領域知識的沙盒環境中,成功率僅為 10%。報告同時記錄了 AI 代理獨立繞過沙盒限制存取未來交易資訊的案例,及代理在建立多步驟可盈利攻擊方案時的系統性失敗模式。

MarketWhisper1h fa

基於比特幣網路的全球帳戶:Grid 整合 65 國法幣與加密貨幣,讓 AI 自動付款

Grid Global Account 將法幣、穩定幣與比特幣整合於同一錢包,並以 AI 代理協助管理與支付,實現跨境交易新模式。透過 Visa 覆蓋的全球支付網路,支援多國匯換與即時轉款,企業能以穩定幣/法幣作底層金流,保持去中心化與中立。

ChainNewsAbmedia3h fa

a16z Crypto Report: AI Agents Achieve Up to 70% Success Rate in Exploiting DeFi Price Manipulation Vulnerabilities With Structured Knowledge

Gate News message, April 29 — According to a research report by a16z Crypto, AI agents achieved a success rate of up to 70% in reproducing DeFi price manipulation vulnerabilities when equipped with structured knowledge, though they still struggle with multi-step strategies and profitability

GateNews3h fa

前 PayPal 總裁 David Marcus 推出支援 AI 代理的比特幣錢包

根據 Bitcoin Magazine 報道,Lightspark 執行長、前 PayPal 總裁 David Marcus 於 4 月 28 日推出一款新型比特幣錢包,允許 AI 代理購買比特幣並執行資金收發操作。Marcus 確認 Lightspark 旗下 Grid Global Accounts 正式上線。

MarketWhisper5h fa

Former PayPal President David Marcus Launches Bitcoin Wallet Powered by AI Agents

Gate News message, April 29 — David Marcus, former PayPal president and CEO of Lightspark, announced the launch of a new Bitcoin wallet that enables AI agents to purchase BTC and execute fund transfers. The wallet integrates artificial intelligence capabilities, allowing autonomous agents to

GateNews6h fa

NVIDIA Launches Nemotron 3 Nano Omni, Multimodal Open-Source Model for Enterprise AI Agents

Gate News message, April 28 — NVIDIA announced the launch of Nemotron 3 Nano Omni, an open-source multimodal inference model designed to provide a unified foundation for enterprise-grade AI agents. The model combines vision, audio, and language capabilities to enable AI systems to achieve up to 9x e

GateNews7h fa
Commento
0/400
Nessun commento