為什麼強化學習比大型語言模型更接近「真正的智慧」?
近年來,大型語言模型(Large Language Models, LLM)如 ChatGPT 席捲全球,不僅能寫程式、生成文章,甚至能通過一些專業考試。很多人因此認為這就是「人工智慧」的終極形態。 但強化學習(Reinforcement Learning, RL)的奠基者之一 Richard Sutton 卻持不同看法——他認為 LLM 是一條「死胡同」,而真正的智慧必須回到 RL 的核心:和世界互動、嘗試、犯錯,並學會從後果中成長。 以下整理 Sutton 的觀點,以及我對這些觀點的延伸思考。 1. LLM 只是模仿,而 RL 在學習世界如何運作 LLM 的學習方式,本質上是「模仿」:它透過龐大的文本資料學習「人類在特定語境下會說什麼」,因此能很擅長接話或補完句子。 但這樣的學習過程並沒有觸及世界的因果規律。對 LLM 而言,重力、摩擦、推力、甚至「如果我推倒一個積木會發生什麼」這些,都只是文字裡的描述,而不是它透過經驗學到的真實規則。 相反地,RL 是一個 行動-回饋循環 :它讓智能體(agent)在環境中採取行動,觀察結果,然後根據「獎勵」來調整策略。這種方式更接近人類與動物的學習方式。 2. 真正的智慧來自「與世界互動」 嬰兒學走路、學說話,並不是因為有人給他一個完整的「語料庫」;而是因為他們跌倒過、模仿過、嘗試過,最後才逐漸掌握規律。 智慧不是被動地「吸收」文字,而是來自主動的探索。 智慧 = 嘗試 + 觀察 + 修正 。 3. 目標智慧的核心 LLM 的唯一目標是「預測下一個詞」,這是一個 封閉的、與現實脫節的目標 。它沒有在真實世界中「成功」或「失敗」的概念。 相對的,RL 的目標是最大化獎勵,例如走迷宮要走到出口、打籃球要把球投進籃框。這些目標讓智能體有了明確的方向,能區分「好」與「壞」,並因此不斷改進。 就像籃球練習一樣: 模仿別人投籃的動作(LLM)不代表你能投進球,但透過一千次投籃並調整角度(RL),你才真正學會如何投進球。 4. LLM 與 RL 的關係:模仿 + 試錯 這並不是說 LLM 一無是處。LLM 可以幫助我們快速掌握知識、模仿專家語言,甚至在早期給 RL 提供參考的啟發。 但若要走向真正的智慧, RL 的試錯學習必不可少 。模仿只能給你一個起點,真正的進步來自與世界的互動。 5. 為什麼機器人是關鍵? Sut...