YJ的科學筆記

近年來，大型語言模型（Large Language Models, LLM）如 ChatGPT 席捲全球，不僅能寫程式、生成文章，甚至能通過一些專業考試。很多人因此認為這就是「人工智慧」的終極形態。但強化學習（Reinforcement Learning, RL）的奠基者之一 Richard Sutton 卻持不同看法——他認為 LLM 是一條「死胡同」，而真正的智慧必須回到 RL 的核心：和世界互動、嘗試、犯錯，並學會從後果中成長。以下整理 Sutton 的觀點，以及我對這些觀點的延伸思考。 1. LLM 只是模仿，而 RL 在學習世界如何運作 LLM 的學習方式，本質上是「模仿」：它透過龐大的文本資料學習「人類在特定語境下會說什麼」，因此能很擅長接話或補完句子。但這樣的學習過程並沒有觸及世界的因果規律。對 LLM 而言，重力、摩擦、推力、甚至「如果我推倒一個積木會發生什麼」這些，都只是文字裡的描述，而不是它透過經驗學到的真實規則。相反地，RL 是一個行動－回饋循環：它讓智能體（agent）在環境中採取行動，觀察結果，然後根據「獎勵」來調整策略。這種方式更接近人類與動物的學習方式。 2. 真正的智慧來自「與世界互動」嬰兒學走路、學說話，並不是因為有人給他一個完整的「語料庫」；而是因為他們跌倒過、模仿過、嘗試過，最後才逐漸掌握規律。智慧不是被動地「吸收」文字，而是來自主動的探索。智慧 = 嘗試 + 觀察 + 修正。 3. 目標智慧的核心 LLM 的唯一目標是「預測下一個詞」，這是一個封閉的、與現實脫節的目標。它沒有在真實世界中「成功」或「失敗」的概念。相對的，RL 的目標是最大化獎勵，例如走迷宮要走到出口、打籃球要把球投進籃框。這些目標讓智能體有了明確的方向，能區分「好」與「壞」，並因此不斷改進。就像籃球練習一樣：模仿別人投籃的動作（LLM）不代表你能投進球，但透過一千次投籃並調整角度（RL），你才真正學會如何投進球。 4. LLM 與 RL 的關係：模仿 + 試錯這並不是說 LLM 一無是處。LLM 可以幫助我們快速掌握知識、模仿專家語言，甚至在早期給 RL 提供參考的啟發。但若要走向真正的智慧， RL 的試錯學習必不可少。模仿只能給你一個起點，真正的進步來自與世界的互動。 5. 為什麼機器人是關鍵？ Sut...

搜尋此網誌

YJ的科學筆記

發表文章

為什麼強化學習比大型語言模型更接近「真正的智慧」？