GPT-4o的P圖太火了,GPU在融化,官方終於限流了

機器之心報導

編輯:澤南

「看到人們喜歡 ChatGPT 中的圖片功能真是太有趣了,但是我們的 GPU 正在融化。」

上線不到 72 小時,OpenAI 的 GPT-4o 原生圖像功能終於扛不住了。

今天淩晨,OpenAI CEO 山姆・奧特曼在社交平台 X 上宣佈 ChatGPT 圖像生成功能開始暫時受限。這一次,他沒有具體說明次數限制是多少,但表示希望這項保障措施不需要實施很長時間,因為 OpenAI 正在嘗試優化效率。

隨著用戶在互聯網上發佈大量 ChatGPT 生成的圖像,傳播開來之後再吸引到更多的用戶,OpenAI 升級後的圖像工具火爆程度遠遠超出了預期。其實 GPT-4o 生成圖像的速度越來越慢,很多用戶已經在抱怨了,週四時生成一張圖片的速度就長達半個小時。

要知道,現在 GPT-4o 生圖還是僅限於付費版用戶的功能(Plus、Pro 和 Team 用戶)。雖然奧特曼仍然許諾免費的 ChatGPT 賬戶未來每天可以獲得三次生成機會,但是照目前的情況來看距離兌現反而還越來越遠了。

看起來這一回,AI 的圖片生成能力終於超過了某個閾值,切實地在重塑著世界。

人們從 GPT-4o 生成的圖像中會發現一些令人毛骨悚然的細節,可以看出 AI 是能夠理解你生成圖片背後想要表達的含義。這說明 GPT-4o 的繪圖能力源自 LLM 本身,並不是像以前那樣簡單地調用專門的生圖模型(Dall-E)。經過了最新的思維鏈流程,AI 充分結合了自身的知識,能夠實現更好的反饋。

用 GPT-4o 生成的圖片。用 GPT-4o 生成的圖片。

原生多模態的大模型是如此的強大,對此很多業內人士已經開始認為,當下一些明星 AI 創業公司開發的圖像生成工具、RAG 工具、AI IDE、工作流、智能體等會在基礎大模型能力提升之後變得不值一提。

畢竟如果把 GPT-4o 比作一個知識淵博,又有理性的設計師,那麼 Stable Diffusion 還僅局限於美工的程度。

OpenAI 曾報告說,GPT-4o 生圖能力的大幅提升源自於一系列技術改進,在執行生成任務的過程中,AI 會對人類提出的 Prompt 進行細化,編寫出一個更加詳細的英文版提示詞。它還會充分調用模型內已有的知識庫和對話上下文,並對人們上傳的參考圖片預先進行轉化處理。

由此生成的圖片可以輕鬆獲得人們構想的效果,具備完美的風格一致性,一舉讓此前還屬於玩具的圖像生成工具成為了兼具準確性與實用性的強大工具。

當然,這一切都是建立在更加複雜的推理和計算基礎上的。目前的 GPT-4o 在效率、邏輯上也存在一些問題。比如奧特曼的推文下有人就在質疑:我試圖生成阿森一族風格的圖片,ChatGPT 算完了才回覆我「受到版權限制無法生成」,為什麼不在生成圖片之前就限制呢?

說到生成圖像的風格,其實又引出了另一個問題:整個互聯網上大家一直在生成的吉卜力風格的卻不受版權限制,這是否也是一種雙標?

自從奧特曼換了頭像帶起節奏,很多人在用 GPT-4o 生成吉卜力工作室畫風的圖像,有的人做出了表情包開始賣,也有人順著這股風潮開始推出濾鏡 App,結果有網民開始惡搞,假稱吉卜力終於忍無可忍了,發來了律師函:

或許在 OpenAI 改進好大模型之前,這股 GPT-4o 改圖的風潮就會因為其他層面的問題而受到影響。

不過 OpenAI 並沒有停止前進。今天淩晨,他們又宣佈了 ChatGPT 的另一波更新:

更新後的 GPT-4o 功能已面向所有付費用戶開放。OpenAI 表示,免費用戶將在未來幾週內獲得相同功能。

AI 引發的革命,還在繼續。

參考內容:

https://x.com/sama/status/1905296867145154688