殺瘋了!豆包發佈視覺理解大模型,又把價格打骨折
都說 AI 還在等待超級應用,或許月活接近 6 億的 ChatGPT 在某種程度上已經是了。
而在國內月活超過千萬的 AI 應用也屈指可數,其中用戶量最大的就是豆包,月活達到 5998 萬,僅次於 ChatGPT 位列全球第二,年底 1 億月活的目標也似乎不是遙不可及。
今天豆包又迎來了一個重磅更新,視覺理解模型正式發佈。
我們在今年的 GPT-4o、Google 的 Project Astra,以及 iPhone 16 和一眾旗艦機型上都看到了視覺理解模型在加速落地,讓多模態交互降低用戶的使用門檻,輔助完成一系列複雜的任務。
那麼豆包的視覺理解模型有什麼不同?在看完發佈會和簡單實測後,我發現這個模型有這幾個特點:
非常強的內容識別能力,不僅能精準識別圖像中的物體類別和形狀等基本元素,還能深入理解它們之間的關係、空間結構以及場景的整體語義。
具備強大的理解和推理能力,除了能夠更高效地識別內容,還能基於文字與圖像信息進行複雜的邏輯推演與計算。
細緻入微的視覺描述和創作能力
比如給它一張動物影子的照片,它可以根據輪廓識別出這是一隻貓。
還有一個我旅行時很愛用的功能,只要拍下一個建築,它就能給你介紹這背後的歷史和各種細節。
而在推理能力,在 o1 推出後,這也成為各種模型的大考。
豆包這次將推理能力到視覺理解模型中,在解答微積分題和今年的高考物理題時可以看到,豆包視覺理解模型都能正確理解題意,並根據提示給出清晰解題思路。
豆包甚至還能出類似知識點給你出新的練習題,可以說是家長輔導作業的神器。
對於內容創作需求,豆包也有了提升。比如隨手畫一幅塗鴉,就能讓它編寫一個故事。
不久前豆包也正式支持在圖片生成中文,填補了 AI 應用生成中文的空白。
在現場,字節還放出了一個更重磅的消息,將豆包視覺理解的價格打到了每千 tokens 0.003 元,相當於一塊錢可以處理 284 張 720P 的圖片。
視覺理解模型都以釐定價了,這在如今大模型中到底多炸裂?
GPT-4o 128k 的價格是每千 Tokens 一分七厘。阿里的qwen-vl-max 32k 是 2 分錢,豆包比行業平均價格降低 85%,打了個骨折。
在今年國產大模型掀起的價格戰中,字節手持的屠刀也越來越大。
5 月份豆包將通用模型 pro-32k 版的價格定在0.0008元/千 tokens,比行業均價低 99.3%,花一元錢就能讓豆包處理 200 萬個漢字,相當於三本《三國演義》,讓行業其他玩家不得不跟進。
關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
快速的模型迭代,豐富的應用生態和激進的定價,共同助推了豆包的高速增長。
火山引擎總裁譚待表示,截止到上週日,12 月 15 號,豆包大模型的日均 tokens 數已經突破了 4 萬億,在 7 個月的時間里增長超過 33 倍。
據不完全統計字節今年發佈的 AI 應用就有接近 20 款,基本覆蓋了圖像、語音、音樂、影片、3D 等主流的模態和場景,還推出了 AI 耳機 Ola Friend 等硬件產品。
以 App 工廠聞名的字節,似乎要將這個策略沿用到這場 AI 新浪潮中。
既然沒有人能篤定什麼是 AI 殺手級場景,那麼就用飽和式打法,這也讓字節成為 AI 軍火庫中最為齊全的一家科技公司。
在大模型從快速擴張進入到淘汰賽的階段,以字節的財務狀況和算力資源,也讓它可以採用 AI 幾小龍無法做到的打法,來打造下一個爆款 AI 應用。
據悉在字節內部,已經提升了即夢的優先級,希望通過新的路徑塑造「AI 時代的抖音」,而即夢的負責人,也是 0 到 1 打造出抖音的張楠。
今天張楠在發佈會上表示,抖音是一個「真實世界」的相機,而即夢希望借助 GenAI 技術成為想像力世界的相機,也可見字節對於即夢的期待值有多高。
不過被寄予這一厚望的字節產品,恐怕也不會只有一款。