AI「思考」只是假象?
剛剛,一項來自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對稍復雜點的題目時,準確率居然會全面崩潰!
隨著問題變難,推理模型初始會延長思考,但隨后思考深度反而下降,盡管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!
這太違背直覺了,似乎Scaling Law在推理時完全失效了。
值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。
論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
LRM模型因能「寫出思考過程」而備受期待,被認為是AI推理能力躍升的關鍵。
DeepSeek-R1 模式的開源開啟了LLM進化到LRM的進程
但研究人員通過可控游戲環(huán)境的系統實驗證明:現有LRMs不僅在高復雜度任務上力不從心,甚至還展現出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。
研究還通過在相同計算token預算下對比思考模型與普通模型,發(fā)現:
不同于大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。
三種不同的性能區(qū)間
與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環(huán)境。
這種環(huán)境可以精確調節(jié)問題的復雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和局限性。