OpenAI員工在Twitter上,像極了上班的你

頭圖由豆包生成  提示詞:打工人,坐在電腦前拚命工作,辦公室場景頭圖由豆包生成  提示詞:打工人,坐在電腦前拚命工作,辦公室場景

作者|Jessica郵箱|JessicaZhang@pingwest.com

OpenAI發佈旗艦推理模型o3和o3-mini,成為他們2024年的收官之作,製造了一波小熱潮。和往常一樣,Twitter (x.com)依然是外網討論的主陣地。

但有件事不知你發現沒,這次來自OpenAI「自己人」的聲量明顯增強了——幾乎所有擁有x帳號的OpenAI員工都在發文,為公司的重大模型更新站台助威。

網民們越刷推越發現,放眼望去,怎麼滿世界都是OpenAI的工程師和研究員。而且這次不再局限於那幾個耳熟能詳的名字,整個團隊都出來了。

此情此景,是不是還挺熟悉~Twitter上的OpenAI員工們,像不像在朋友圈奮力為東家「營業」的你?

OpenAI全員共創o3盛事之:

領導班子帶頭PR

掌門人奧特曼不用多說了:從發佈前按捺不住以「oh oh oh」暗示新品,邀請大家申請o3測試權限;

到強調o3-mini編程表現以顯著降低的成本超越o1,在線感激團隊成員的辛勞付出,稱大家一起工作是「人生中最大的快樂之一」;

再到各種一鍵三連同事們的o3推文,熱鬧非常。

上個月剛結束”人生中最長假期”的OpenAI聯合創始人兼總裁Greg Brockman,回歸後一直在緊密配合公司的每一步動作,勤勞搞宣發。

o3上線後他發聲力讚:新模型在最具挑戰性的測試中實現了質的飛躍,直接達到一個全新的高度。

首席產品官Kevin Weil和研究副總裁Mark Chen分別轉發ARC-AGI測試突破和o3-mini團隊的推文。

新任OpenAI首席信息安全官Dane Stuckey也來「一二三,上鏈接」了,感歎這是「多麼令人興奮的一天」。

有意思的是,Stuckey大約四年前就註冊了Twitter帳號,而直到今年10月他離開Palantir Tech,官宣加入OpenAI後,才開始正式發文。並且一改往日低調,變得異常活躍。

主創團隊攜手登場

在這次發佈直播中,年輕的華人研究員Hongyu Ren作為團隊代表,詳細介紹了輕量級模型o3 mini。

他隨後在Twitter上發文,重點講解o3 mini的卓越性能,包括其高效性、成本效益以及靈活可調的推理時間。還特別提到了幾位參與o3-mini研發的核心成員,向他們致敬。

幾位主創也紛紛發文回應,稱o3-mini是「一個聰明的小怪獸」、「速度極快」、擁有「驚人的數學和代碼性能」,言語間自豪之情盡顯。

其實,這些研究員們在業內已經頗有建樹。查看他們的背景就會發現,不少人都是o1和o1-mini的關鍵貢獻者。不過這一波官宣也確實讓更多公眾認識了他們,以OpenAI的造星能力來看,出幾個新的大模型界KOL或許指日可待。

各組同事紮堆誇誇

此次「OpenAI誇誇團」的團友之多:只要點進一位員工的x帳號,就大概率能順著各種”套娃式”轉發,連環點進其他幾位同事誇讚o3的推文里。

搞得我們都懷疑奧特曼是不是下達了什麼指標,把增加o3曝光度也算進員工KPI里。

在微軟研究院工作了十年、曾擔任AI副總裁及傑出科學家的知名計算機大佬Sébastien Bubeck,於今年10月入職了OpenAI。他在置頂推文中坦言,o3和o3-mini是自己截至目前最喜歡的模型,o3各項評估簡直封神,特別是前沿數學25%的測試成績。

領導過GPT-4o預訓練和o1開發的研究員Aidan Clark更是連發五條,激讚「Hongyu 真得太厲害了」,表示o3-mini是第一個讓他真正能提出難題的模型。

專注GPT增長的技術團隊成員Anshita Saini說,o3給人的感覺很不一樣。整個o3系列的理念會讓她停下來思考「一個將AGI產品化的世界是什麼樣子」。

研究人員在線剖析

除了以上這種直給式力撐,還有一些OpenAI研究員承擔了答疑解惑的角色,試圖通過分享觀點來澄清一些問題。

o3和o3-mini的發佈給社區帶來振奮的同時,也引發了一些爭議和質疑。有人因為ARC-AGI的測試結果歡呼AGI近在咫尺,甚至已經實現;也有人嗤之以鼻,對o3高昂的算力需求和運營成本表示擔憂,「抽水」這不過是又一個”畫餅”產品。

對此,OpenAI多模態推理研究員Noam Brown發文表示:外界對ARC-AGI測試的反應有些過度,突破ARC-AGI基準並不意味著模型已達到AGI水平。他還提到了AI領域的一個普遍現象:人們往往認為某個基準測試需要”超智能”才能完成,但當真的有模型攻克這個基準時,人們又會因為它沒有達到預期中的”超智能”水平而感到失望。

言外之意:請理性對待,不要捧殺。

OpenAI API工程主管Sherwin Wu對此深表讚同,Sherwin提醒社區:比起ARC-AGI測試,o3在編程和數學上的突破才更值得關注——o3的編程水平已經超越了自己,而o3能答對四分之一的前沿數學題目自己更是一道都解不出。

另外,針對o3模型是否使用特定數據集、通過特定領域優化、或人為調整提示格式來提高評估結果的質疑,公司研究員Brandon McKinzie和Rhythm Garg相繼回應:

評估中使用的arc-agi公共訓練集僅是更大o3訓練數據的一小部分,無法決定模型表現;o3是通用模型,未進行任何特定領域的微調;ARC-AGI高分並非依賴調整提示,而是模型通用性和訓練結果的自然體現。

關於o3的高昂價格,研究員Nat McAleese這樣解釋:雖然o3是目前測試階段成本最高的模型,但它開啟了一個”用計算換性能”的新時代。通過增加測試階段的計算量,o3將模型性能提升到了一個”令人難以置信的水平”。

Nat認為,儘管目前確實很貴,但隨著技術進步,token價格會逐漸降低。更關鍵的是,團隊已經找到了一種能夠高效地將計算量轉化為性能提升的方法,這預示著未來AI模型的能力還將大幅提升。

最後是OpenAI模型訓練速度的問題。在中文社區頗有影響力的Jason Wei表示:從o1到o3的升級僅用了三個月時間,證明了基於思維鏈的強化學習新範式,比傳統預訓練方式每1-2年才能推出一個新模型的節奏要快得多。

連OpenAI日本辦公室總裁Tadao Nagasaki也出來捧場:「我們不是才在九月份發佈了 o1?現在已經開始對o3 早期評估了!」

集體營業要傳達什麼信息

這次OpenAI員工集體為o3發佈背書,首先是出於對產品的高度自信。通過不同角度的解讀,他們希望外界能夠更全面地瞭解o3在數學、編程和推理方面的突破性成就。OpenAI有意向外界展示:自己依然是AI技術的領導者,在競爭者四起的市場上存在感依舊。

此外,在當前OpenAI面臨外界質疑、競爭壓力加劇的關鍵時間點,加之核心員工頻繁流失以及「吹哨人」風波的影響,全員營業也帶有了些許「抱團取暖」的意味。他們試圖借這次發佈向社區傳遞幾個信號:

1. 擴展法則有新突破

多位OpenAI研究員指出,o3和o3-mini驗證了增加計算資源、數據量和模型參數確實能帶來顯著性能提升,並且突破了傳統擴展法則「遞減效益」的限制,證明模型在未來仍有巨大的提升空間。

2. 技術創新沒有「撞牆」

員工們通過轉發測試數據和詳細解讀,強調o3系列的理念和性能突破了許多人對AI模型邊界的想像,不僅在性能上取得了超越預期的突破,也展現了更廣泛的適用性。相比外界對GPT-5「難產」的傳言,OpenAI想證明他們正在開闢另一條創新之路。

3. 訓練速度並未放緩

面對外界關於OpenAI模型迭代速度的質疑,特別是在全球AI競爭日益激烈的背景下,從o1到o3的迅速升級成了明確回應。表明OpenAI有能力突破傳統預訓練1-2年的開發週期,以更快的速度推出高質量模型,穩固市場信心。

回過頭看,從上線o1正式版到官宣o3,這12天技術直播更像一場聲勢浩大的OpenAI大秀。去年這個時候,那場震撼全網的”OpenAI is nothing without its people”全員聲援才剛剛落幕。一年過去,OpenAI不能說不好,卻也不複曾經GPT時的巔峰輝煌。在經歷了各種高低曲折後,或許每位員工都想在年底拚一把來make OpenAI great again。