殺瘋了！豆包發佈視覺理解大模型，又把價格打骨折

12月18日 15:12 新浪網 tech-auto-hilite

都說 AI 還在等待超級應用，或許月活接近 6 億的 ChatGPT 在某種程度上已經是了。

而在國內月活超過千萬的 AI 應用也屈指可數，其中用戶量最大的就是豆包，月活達到 5998 萬，僅次於 ChatGPT 位列全球第二，年底 1 億月活的目標也似乎不是遙不可及。

今天豆包又迎來了一個重磅更新，視覺理解模型正式發佈。

我們在今年的 GPT-4o、Google 的 Project Astra，以及 iPhone 16 和一眾旗艦機型上都看到了視覺理解模型在加速落地，讓多模態交互降低用戶的使用門檻，輔助完成一系列複雜的任務。

那麼豆包的視覺理解模型有什麼不同？在看完發佈會和簡單實測後，我發現這個模型有這幾個特點：

非常強的內容識別能力，不僅能精準識別圖像中的物體類別和形狀等基本元素，還能深入理解它們之間的關係、空間結構以及場景的整體語義。

具備強大的理解和推理能力，除了能夠更高效地識別內容，還能基於文字與圖像信息進行複雜的邏輯推演與計算。

細緻入微的視覺描述和創作能力

比如給它一張動物影子的照片，它可以根據輪廓識別出這是一隻貓。

還有一個我旅行時很愛用的功能，只要拍下一個建築，它就能給你介紹這背後的歷史和各種細節。

而在推理能力，在 o1 推出後，這也成為各種模型的大考。

豆包這次將推理能力到視覺理解模型中，在解答微積分題和今年的高考物理題時可以看到，豆包視覺理解模型都能正確理解題意，並根據提示給出清晰解題思路。

豆包甚至還能出類似知識點給你出新的練習題，可以說是家長輔導作業的神器。

對於內容創作需求，豆包也有了提升。比如隨手畫一幅塗鴉，就能讓它編寫一個故事。

不久前豆包也正式支持在圖片生成中文，填補了 AI 應用生成中文的空白。

結合視覺理解模型，豆包這些 AI 創作功能也有了更多可玩性，比如根據一張風景照讓豆包作一首詩，然後將詩句創作成海報。

結合視覺理解模型，豆包這些 AI 創作功能也有了更多可玩性，比如根據一張風景照讓豆包作一首詩，然後將詩句創作成海報。

在現場，字節還放出了一個更重磅的消息，將豆包視覺理解的價格打到了每千 tokens 0.003 元，相當於一塊錢可以處理 284 張 720P 的圖片。

視覺理解模型都以釐定價了，這在如今大模型中到底多炸裂？

GPT-4o 128k 的價格是每千 Tokens 一分七厘。阿里的qwen-vl-max 32k 是 2 分錢，豆包比行業平均價格降低 85%，打了個骨折。

在今年國產大模型掀起的價格戰中，字節手持的屠刀也越來越大。

5 月份豆包將通用模型 pro-32k 版的價格定在0.0008元/千 tokens，比行業均價低 99.3%，花一元錢就能讓豆包處理 200 萬個漢字，相當於三本《三國演義》，讓行業其他玩家不得不跟進。

關注 AI 第一新媒體，率先獲取 AI 前沿資訊和洞察

快速的模型迭代，豐富的應用生態和激進的定價，共同助推了豆包的高速增長。

火山引擎總裁譚待表示，截止到上週日，12 月 15 號，豆包大模型的日均 tokens 數已經突破了 4 萬億，在 7 個月的時間里增長超過 33 倍。

據不完全統計字節今年發佈的 AI 應用就有接近 20 款，基本覆蓋了圖像、語音、音樂、影片、3D 等主流的模態和場景，還推出了 AI 耳機 Ola Friend 等硬件產品。

以 App 工廠聞名的字節，似乎要將這個策略沿用到這場 AI 新浪潮中。

既然沒有人能篤定什麼是 AI 殺手級場景，那麼就用飽和式打法，這也讓字節成為 AI 軍火庫中最為齊全的一家科技公司。

在大模型從快速擴張進入到淘汰賽的階段，以字節的財務狀況和算力資源，也讓它可以採用 AI 幾小龍無法做到的打法，來打造下一個爆款 AI 應用。

據悉在字節內部，已經提升了即夢的優先級，希望通過新的路徑塑造「AI 時代的抖音」，而即夢的負責人，也是 0 到 1 打造出抖音的張楠。

今天張楠在發佈會上表示，抖音是一個「真實世界」的相機，而即夢希望借助 GenAI 技術成為想像力世界的相機，也可見字節對於即夢的期待值有多高。

不過被寄予這一厚望的字節產品，恐怕也不會只有一款。