Yann LeCun 不看好強化學習：「我確實更喜歡 MPC」

轉自 | 機器之心

編輯 | 張倩、小舟

五十多年前的理論還值得再研究一下？

「相比於強化學習（RL），我確實更喜歡模型預測控制（MPC）。至少從 2016 年起，我就一直在強調這一點。強化學習在學習任何新任務時都需要進行極其大量的嘗試。相比之下，模型預測控制是零樣本的：如果你有一個良好的世界模型和一個良好的任務目標，模型預測控制就可以在不需要任何特定任務學習的情況下解決新任務。這就是規劃的魔力。這並不意味著強化學習是無用的，但它的使用應該是最後的手段。」

在最近發佈的一個帖子中，Meta 首席人工智能科學家 Yann LeCun 發表了這樣一番看法。

一直以來，Yann LeCun 都是強化學習的批評者。他認為，強化學習這種方法需要大量的試驗，非常低效。這和人類的學習方式大相逕庭 —— 嬰兒不是通過觀察一百萬個相同物體的樣本來識別物體，或者嘗試危險的東西並從中學習，而是通過觀察、預測和與它們互動，即使沒有監督。

在半年前的一次演講中，他甚至主張「放棄強化學習」。但在隨後的一次採訪中，他又解釋說，他的意思並不是完全放棄，而是最小化強化學習的使用，訓練系統的正確方法是首先讓它從主要觀察（也許還有一點交互）中學習世界和世界模型的良好表示。

同時，LeCun 也指出，相比於強化學習，他更傾向於 MPC（模型預測控制）。

MPC 是一種使用數學模型在有限時間內實時優化控制系統的技術，自二十世紀六七十年代問世以來，已廣泛應用於化學工程、煉油、先進製造、機器人和航空航天等各個領域。比如，前段時間，波士頓動力就分享了他們利用 MPC 進行機器人控制的多年經驗。

MPC 的最新發展之一是與機器學習技術的集成，即 ML-MPC。在這種方法中，機器學習算法用於估計系統模型、進行預測和優化控制動作。機器學習和 MPC 的這種結合有可能在控制性能和效率方面提供顯著的改進。

LeCun 的世界模型相關研究也用到了 MPC 相關理論。

最近，LeCun 對於 MPC 的偏愛又在 AI 社區引發了一些關注。

有人說，如果我們的問題能夠很好地建模，並且具有可預測的 dynamics，MPC 就會很好地發揮作用。

或許對於計算機科學家來說，信號處理和控制領域還有很多值得挖掘的東西。

不過，也有人指出，求解精確的 MPC 模型是個很難的問題，LeCun 觀點中的前提 ——「如果你有一個良好的世界模型」本身就難以實現。

還有人說，強化學習和 MPC 未必是二選一的關係，二者可能有各自的適用場景。

之前已經有一些研究將二者結合起來使用，效果很好。

強化學習 vs MPC

在前面的討論中，有網民推薦了一篇 Medium 文章，分析對比了強化學習與 MPC。

接下來，就讓我們根據這篇技術博客，具體分析下兩者的優缺點。

強化學習（RL）和模型預測控制（MPC）是優化控制系統的兩種強大技術。兩種方法都有其優點和缺點，解決問題的最佳方法取決於特定問題的具體要求。

那麼，兩種方法的優缺點分別有哪些，又適用於解決哪些問題呢？

強化學習

強化學習是一種通過反復試驗來學習的機器學習方法。它特別適合解決複雜動力學或未知系統模型的問題。在強化學習中，智能體學習在環境中採取行動以最大化獎勵信號。智能體與環境交互，觀察結果狀態並採取行動。然後根據結果給予智能體獎勵或懲罰。隨著時間的推移，智能體將學會採取能夠帶來更積極獎勵的行動。強化學習在控制系統中有多種應用，旨在提供動態自適應方法來優化系統行為。一些常見的應用包括：