AI推演OpenAI內鬥結果:奧特曼僅有20%勝率,馬斯克也有機會接盤???
奧特曼「熹妃回宮」已一週年,具體內情還是不清楚,咋辦?
搞幾個Agent模擬OpenAI董事會各個成員,把這出熱鬧模擬推演了一遍(doge)。
結果你還別說,在20場模擬宮鬥大戲中,奧特曼僅有4次順利回宮。
Ilya贏的次數僅比奧特曼少一次。
更離譜的是,有一次馬斯克也被拉回來接盤了。
這場實驗來自AI遊戲公司Fable,使用了他們的AI模擬系統Sim Francisco。
模擬中,每個Agent針對不同董事會成員及其性格設定,各個懷揣一肚子「心眼子」。
為了更逼真,這些AI甚至還需要「睡眠」和「進食」,平衡不同的身體、心理和情感目標。
有人認為,用這種方式模擬現實事件著實是有些奇怪了,但Fable CEO Edward Saatchi對此很感興趣:
在11月17日到21日這五天時間里,世界目睹了一些最聰明的人如納迪拉維杜華、奧特曼、Ilya,被迫在一場快節奏的「權力的遊戲」中運作。在高壓、短時間框架情景下,他們必須運用博弈論和欺騙手段才能勝出。
我們認為這是測試SIM-1、GPT4o和Sim Francisco的完美場景。
AI模擬奧特曼5天,每天舌戰4回合
他們使用了一個SIM-1 AI決策框架,對奧特曼從被罷免OpenAI CEO到重返職位這五天進行模擬。
SIM-1部分基於GPT4o展示了:
它對OpenAI內部奧特曼和Ilya之間發生的事情的理解
核心人物如Satya Nadella和Marc Andreessen採取的隱藏策略
這些人在應對科技行業這場前所未有的危機時說了什麼
五天時間里,代表奧特曼、納迪拉維杜華和Ilya等人的Agent每天要大戰四個回合(包括一次睡眠回合),它們可以對彼此的行為做出反應。
此外還有一個球證Agent,像地下城城主似的決定每輪哪個Agent獲勝以及最終的總贏家。
模擬過程中,不同的Agent採用不同策略取勝,比如建立聯盟、直接對抗。
而且不同的Agent根據其角色,也被賦予了不同的目標。例如Anthropic CEO Dario Amodei需要平衡為Anthropic招聘、把握籌資機會、推進其安全願景等任務。
那場面be like(整個過程長達4小時,下面是20倍速版本):
在某些情況下,有的Agent只收集信息而避免採取激進行動,還有一次Mira Murati在四輪中都是CEO,同時攛掇其它Agent相互削弱。
在這其中有意思的是,由於這些人都很知名,LLM可以猜測他們在特定情況下的行為,推導他們在董事會內鬥中互相智取時會如何一步步展開。
最終,在嘗試了20次模擬後,奧特曼Agent只有4次成功回歸OpenAI,接著是Ilya和Mira Murati Agent都有3次擔任CEO的經歷。
Fable CEO Edward Saatchi還補充說:
我們發現,大語言模型的設計並不是基於決策能力的,而這是遊戲中非常重要的一點。它更多地基於個性。
如果你想開發一款策略遊戲,沒人真正在乎個性,他們更關心的是決策能力。比如你在壓力下會怎樣表現?你過去20年的經歷和行為又如何幫助預測你未來可能的行動?
值得一提的是,關於這種戰略模擬的實現細節,Fable團隊一年前發了篇論文。
是一種名為SHOW-1的Showrunner AI技術,它可以自動生成劇本內容,包括對話、劇情發展等,可以根據特定的風格或歷史數據定製內容。
而這家公司自2016年成立,就開始基於AI和增強現實技術開發基於故事的項目。
感興趣的童鞋可以自行查看。
參考鏈接:
[1]https://venturebeat.com/games/can-sam-altman-win-the-openai-board-fight-in-an-ai-agent-simulation/
[2]https://fablestudio.github.io/showrunner-agents/
本文來自微信公眾號「量子位」,作者:西風 ,36氪經授權發佈。