AI推演OpenAI內鬥結果：奧特曼僅有20%勝率，馬斯克也有機會接盤？？？

11月25日 20:14 新浪網 tech-auto-hilite

奧特曼「熹妃回宮」已一週年，具體內情還是不清楚，咋辦？

搞幾個Agent模擬OpenAI董事會各個成員，把這出熱鬧模擬推演了一遍（doge）。

結果你還別說，在20場模擬宮鬥大戲中，奧特曼僅有4次順利回宮。

Ilya贏的次數僅比奧特曼少一次。

更離譜的是，有一次馬斯克也被拉回來接盤了。

這場實驗來自AI遊戲公司Fable，使用了他們的AI模擬系統Sim Francisco。

模擬中，每個Agent針對不同董事會成員及其性格設定，各個懷揣一肚子「心眼子」。

為了更逼真，這些AI甚至還需要「睡眠」和「進食」，平衡不同的身體、心理和情感目標。

有人認為，用這種方式模擬現實事件著實是有些奇怪了，但Fable CEO Edward Saatchi對此很感興趣：

在11月17日到21日這五天時間里，世界目睹了一些最聰明的人如納迪拉維杜華、奧特曼、Ilya，被迫在一場快節奏的「權力的遊戲」中運作。在高壓、短時間框架情景下，他們必須運用博弈論和欺騙手段才能勝出。

我們認為這是測試SIM-1、GPT4o和Sim Francisco的完美場景。

AI模擬奧特曼5天，每天舌戰4回合

他們使用了一個SIM-1 AI決策框架，對奧特曼從被罷免OpenAI CEO到重返職位這五天進行模擬。

SIM-1部分基於GPT4o展示了：

它對OpenAI內部奧特曼和Ilya之間發生的事情的理解

核心人物如Satya Nadella和Marc Andreessen採取的隱藏策略

這些人在應對科技行業這場前所未有的危機時說了什麼

五天時間里，代表奧特曼、納迪拉維杜華和Ilya等人的Agent每天要大戰四個回合（包括一次睡眠回合），它們可以對彼此的行為做出反應。

此外還有一個球證Agent，像地下城城主似的決定每輪哪個Agent獲勝以及最終的總贏家。

模擬過程中，不同的Agent採用不同策略取勝，比如建立聯盟、直接對抗。

而且不同的Agent根據其角色，也被賦予了不同的目標。例如Anthropic CEO Dario Amodei需要平衡為Anthropic招聘、把握籌資機會、推進其安全願景等任務。

那場面be like（整個過程長達4小時，下面是20倍速版本）:

在某些情況下，有的Agent只收集信息而避免採取激進行動，還有一次Mira Murati在四輪中都是CEO，同時攛掇其它Agent相互削弱。

在這其中有意思的是，由於這些人都很知名，LLM可以猜測他們在特定情況下的行為，推導他們在董事會內鬥中互相智取時會如何一步步展開。

最終，在嘗試了20次模擬後，奧特曼Agent只有4次成功回歸OpenAI，接著是Ilya和Mira Murati Agent都有3次擔任CEO的經歷。

Fable CEO Edward Saatchi還補充說：

我們發現，大語言模型的設計並不是基於決策能力的，而這是遊戲中非常重要的一點。它更多地基於個性。

如果你想開發一款策略遊戲，沒人真正在乎個性，他們更關心的是決策能力。比如你在壓力下會怎樣表現？你過去20年的經歷和行為又如何幫助預測你未來可能的行動？

值得一提的是，關於這種戰略模擬的實現細節，Fable團隊一年前發了篇論文。

是一種名為SHOW-1的Showrunner AI技術，它可以自動生成劇本內容，包括對話、劇情發展等，可以根據特定的風格或歷史數據定製內容。

而這家公司自2016年成立，就開始基於AI和增強現實技術開發基於故事的項目。

感興趣的童鞋可以自行查看。

參考鏈接：

[1]https://venturebeat.com/games/can-sam-altman-win-the-openai-board-fight-in-an-ai-agent-simulation/

[2]https://fablestudio.github.io/showrunner-agents/

本文來自微信公眾號「量子位」，作者：西風，36氪經授權發佈。