為什麼強化學習比大型語言模型更接近「真正的智慧」?
近年來,大型語言模型(Large Language Models, LLM)如 ChatGPT 席捲全球,不僅能寫程式、生成文章,甚至能通過一些專業考試。很多人因此認為這就是「人工智慧」的終極形態。
但強化學習(Reinforcement Learning, RL)的奠基者之一
Richard Sutton 卻持不同看法——他認為 LLM 是一條「死胡同」,而真正的智慧必須回到 RL 的核心:和世界互動、嘗試、犯錯,並學會從後果中成長。
以下整理 Sutton 的觀點,以及我對這些觀點的延伸思考。
1. LLM 只是模仿,而 RL 在學習世界如何運作
LLM 的學習方式,本質上是「模仿」:它透過龐大的文本資料學習「人類在特定語境下會說什麼」,因此能很擅長接話或補完句子。
但這樣的學習過程並沒有觸及世界的因果規律。對 LLM 而言,重力、摩擦、推力、甚至「如果我推倒一個積木會發生什麼」這些,都只是文字裡的描述,而不是它透過經驗學到的真實規則。
相反地,RL 是一個行動-回饋循環:它讓智能體(agent)在環境中採取行動,觀察結果,然後根據「獎勵」來調整策略。這種方式更接近人類與動物的學習方式。
2. 真正的智慧來自「與世界互動」
嬰兒學走路、學說話,並不是因為有人給他一個完整的「語料庫」;而是因為他們跌倒過、模仿過、嘗試過,最後才逐漸掌握規律。
智慧不是被動地「吸收」文字,而是來自主動的探索。智慧 = 嘗試 + 觀察 + 修正。
3. 目標智慧的核心
LLM 的唯一目標是「預測下一個詞」,這是一個封閉的、與現實脫節的目標。它沒有在真實世界中「成功」或「失敗」的概念。
相對的,RL 的目標是最大化獎勵,例如走迷宮要走到出口、打籃球要把球投進籃框。這些目標讓智能體有了明確的方向,能區分「好」與「壞」,並因此不斷改進。
就像籃球練習一樣:模仿別人投籃的動作(LLM)不代表你能投進球,但透過一千次投籃並調整角度(RL),你才真正學會如何投進球。
4. LLM 與 RL 的關係:模仿 + 試錯
這並不是說 LLM 一無是處。LLM 可以幫助我們快速掌握知識、模仿專家語言,甚至在早期給 RL 提供參考的啟發。
但若要走向真正的智慧,RL 的試錯學習必不可少。模仿只能給你一個起點,真正的進步來自與世界的互動。
5. 為什麼機器人是關鍵?
Sutton 強調:「LLM 沒有世界模型。」
所謂「世界模型」就是能夠根據行動來預測後果。這需要真實的互動,而不是只看文字。
舉例來說:
-
如果 AI 指揮一個機器人去推積木,積木倒下了,AI 就學到推力和穩定性的關係。
-
當這樣的實驗被重複成千上萬次後,AI 建立起一個可靠的物理世界模型。
這種來自現實的模型,比僅僅從網路文章裡「讀到的描述」要準確得多。
6. AI 與機器人是「大腦與身體」的互補
可以把 AI 想像成「大腦」,機器人是「身體」:
-
AI 幫助機器人:理解任務、規劃步驟、處理感官輸入並做出決策。
-
機器人幫助 AI:提供來自物理世界的真實感官數據,這些數據是無法被網路文本取代的「黃金訓練素材」。
AI 與機器人的互補,能讓 AI 不再只是停留在語言層面的「模仿」,而是走向真實的、可驗證的「理解」。
留言
張貼留言