誰來給中國大模型落地打個樣?

題圖|視覺中國

2024年,是大模型走嚮應用的關鍵之年。

由Transformer技術所引爆的大模型浪潮,曾以迅雷不及掩耳的姿態橫掃了全世界科技行業,給很多人帶來了「危機感」。但隨著時間的推移,在熱度下降之後,「大模型」也開始面臨對新技術的固有挑戰——落地應用。

原因很簡單:脫離了落地應用,「賣鏟人」神話也好、AI狂潮也好,都逃脫不了破滅的命運。

AI行業深諳這個道理,更偏向於獨立App生態的海外市場,各種由大模型驅動的AI應用2024年如雨後春筍般出現;而更偏向於由大廠帶頭突破的國內,幾大基礎大模型在各自基礎能力PK前進的同時,也在內置智能體的數量和豐富度等維度展開了激烈的競爭。

在這種大模型競爭全面深化的趨勢下,如何找準接下來落地應用的發展路線,顯然成為國內一眾大模型的「勝負手」。

大模型應用落地的關鍵,是要「超越」技術

在大模型走嚮應用落地的過程中,有種看法一直頗為流行——大模型帶來的技術飛躍足夠大,因此只要找到「殺手應用」,就能一下子實現技術的落地應用和普及。

這種繼承自前幾波技術浪潮,可以總結為「只要造好了錘子就能找到釘子」的思維,其實忽略了一個現實:世界上90%的事情用最簡單數字化規則(例如基礎編程語言)就已經可以運轉得很好,完全不需要用AI大模型來改善。

剩下的10%最困難、最需要人腦智慧的高價值任務中,大模型AI目前能夠獨立解決的也很少。少數大模型AI能夠獨立給出「結果」的應用,其價值更是長期處於「非常曖昧」的狀態。

就拿智能體來說,在ChatGPT最為火熱的時候,它似乎就成為了AI解決問題的一切手段,任何新需求都能通過一個智能體或者多個智能體協作來完成。

但實際情況是,這些主要依賴LUI(語言交互界面)的智能體雖然五花八門,學習了海量資料,卻普遍存在「溝通成本高+輸出質量不穩定」的大模型先天缺陷,其輸出內容的類型和方式也相當有限,極大地限制了進一步的應用落地。

這些曾經大熱的大模型落地方向之所以走不通,恰恰是因為很多時候我們過於關注一些流行的概念或技術,而忽略了要解決的根本問題是什麼。

因此想要大模型獲得應用落地,最關鍵的還是找對用戶需求,開放地運用各種技術更高效率地解決問題,而不是陷入到「只用大模型能力」來解決問題的怪圈之中。

用人話來總結,AI也只是解決問題的「工具」,是手段而不是目的。

最終實現兩個獨立目標「技術驅動產品」、「產品體驗驅動用戶增長,實現落地應用」。這兩點也是當前阿裡通義將大模型帶向落地應用的核心思路。作為阿里AI戰略的排頭兵,通義為中國大模型落地打了個樣。

如何實在與先進並存?

基礎思路已經夯實的通義,在尋找用戶需求這件事上,核心思路是把「不懂技術的用戶使用AI的門檻」打下來。

大模型的底層創新Transformer神經網絡,核心突破是特別擅長處理長篇幅文字內容。它能夠理解和生成連貫、複雜的文本內容;所以海量自然語言、文本的場景一直是大模型最明確的「舒適區」。

需要接觸大量知識、會議、交流的工作學習領域,顯然處於這個「舒適區」的正中央。如何首先「攻克」這個領域,就成了各家大模型落地應用的必爭之地,目前走在最前列的,就是通義。

今年8月底,通義對自己的網頁版產品進行了一輪大升級,將「通義聽悟」、「通義智文」兩個產品升級成「實時記錄」和「閱讀助手」,同時還加上了新的「PPT創作」,將這一系列能力打包成了全新的「通義效率」,一口氣覆蓋了辦公學習的大部分場景。

其中「實時記錄」主要負責將現實中的語音記錄下來,並且通過翻譯、編輯、AI總結等提取其中的信息;「閱讀助手」則可以對各種文檔、網頁鏈接進行信息總結、知識篩選提煉;「PPT創作」,則可以利用大模型直接根據少量核心信息,輸出具備邏輯性且美觀的展示材料。

三者結合在一起,最終構成了一個信息獲取整理、資料閱讀理解到思考內容展示的完整工作學習流程。

如果說整體板塊的完整工作流還不算什麼,那麼通義對於單個功能的細分工作流完善,真的可以說是「令人髮指」。

就拿「實時記錄」來說,只要有馬克風,就能對中、粵、英、日四種語言進行實時語音轉文字,同時英文/日語還能直接轉譯成中文。

在完成最基本的語音轉錄文字和翻譯的同時,其界面也針對實時場景做足了優化。例如左側的轉錄板塊之上,就附帶了「搜索」、「查找與替換」、「發言人篩選」、「批量摘取」、「翻譯」、「發言人區分」、「AI改寫」7個功能。

用戶可以借助這些工具,快速地對轉錄內容進行查找、修改、編輯、提取。完全不用迷失在冗長的轉錄內容之中。

右側的功能板塊則將「導讀」、「腦圖」、「筆記」三個功能結合在了一起,「導讀」可以對轉錄內容進行AI總結、摘要;「腦圖」則可以將根據轉錄內容整理出思維導圖,讓用戶快速掌握會議要點和脈絡;「筆記」則提供了完備的在線編輯能力,用戶不僅可以寫下文字記錄,同時還能插入錄音的「時間戳」、插入截圖、甚至是直接插入表格和任務列表。

這一整套從實時錄音輸入,到最終結果輸出的核心能力集合,直接覆蓋了會議記錄、課堂記錄等核心場景,在多個環節之中穿插的AI大模型能力,更是讓整個信息處理流程順暢了起來,既實現了AI大模型功能的落地,同時也給用戶帶來了效率和使用體驗的飛躍。

「閱讀助手」和「PPT創作」同樣能看到很多細節的打磨。

「閱讀助手」採用了類似於「實時記錄」功能的板塊設計,右側一口氣集合了「導讀」、「翻譯」、「腦圖」、「筆記」四個功能。雖然佈局相似,但「翻譯」被很細節地從左側移到了右側,一下子就提供了極佳的外語文檔閱讀體驗,可以逐段對照地查看原始文檔和全文翻譯結果。

而「PPT創作」支持一句話、上傳文件和長文本生成PPT,在完成首次生成之後,也可以進行文字內容修改,甚至是直接召喚大模型幫忙一起優化文案。PPT上面的任何一張AI生成的圖片也可以點擊進行替換,通義甚至貼心地為用戶附上了「咒語書」,幫助用戶優化約束圖片生成效果。

為了便於用戶使用,這些能力也集成在了通義App首頁中。當然,不能不提的是,通義出色的用戶體驗除了仰仗產品優秀設計與細緻打磨,也離不開通義快速躍進的基礎模型能力。

今年6月,阿里發佈了開源模型Qwen2-72B,一經推出就在全球各個大模型排行榜中成為了全球性能最強的開源模型。

到了今年9月的雲棲大會,通義旗艦模型Qwen-Max全方位升級,在諸多大語言模型權威基準測試中,直逼甚至超越全球最先進的OpenAI GPT-4o;其中通義千問新一代開源模型Qwen2.5中的旗艦模型Qwen2.5-72B更是超越了Meta的Llama 405B(模型參數量更少,但是測試成績更好),再次登上全球開源大模型王座。

這種「產品」與「技術實力」的交相輝映,也延續到了如今大模型最熱的視覺領域。在9月更新大語言模型「通義千問」的同時,阿里也更新了自己視覺大模型「通義萬相」,讓其AI生圖、AI生成影片的能力再次獲得了提升。

 「通義萬相」影片生成模型主打更能聽懂中國話,更懂中國風的特點。用戶只要輸入任意文字提示詞,例如畫面內容、空間構圖、運動過程、運鏡方式,就可以生成影視級高清影片,以及與畫面匹配的音效。

用戶還可以通過靈感擴寫功能,對自己的提示詞進行智能豐富,進一步提升影片內容表現力;圖生影片功能更是支持用戶將任意圖片轉化為動態影片,通過提示詞來控制影片運動。

阿里團隊在「通義萬相」中突破性地採用了Diffusion Transformer架構,並且從一開始就採用了中英文雙語標註,讓中文文生影片內容的創作能力實現了飛躍。在模型發佈的同時,用戶可通過通義APP及通義萬相官網免費體驗,率先做到了「技術到應用」的全鏈路發展。

過去一年,通義實現了多個裡程碑式跨越,從大語言到影片生成到多模態模型,大模型的能力邊仍在不斷擴展,在數學、代碼及推理等能力上持續攀升。基於這些模型能力,通義App與PC端也持續上新,用戶可以與李白數字人對詩、影片實時講解數學題、一句話生成應用,即時體驗大模型帶來的全新體驗。

隨著未來更多底層大模型技術突破的出現,擁有海量AI人才和投入不設上限的阿里,必然能進一步豐富通義自身領先的基礎大模型能力。再以「解決實際問題」、「讓所有人用上」為邏輯,將各種大模型的能力與阿里出色的產品化能力相結合,最終做到大模型「實打實」的落地與應用。

也就是標題所提到的:既要超越技術,又要實在與先進並存。

堅持本心的通義

如果說「讓AI實打實落地應用」還只是通義天生的使命,那麼對於「開源」、「讓技術和產品說話」、「要有愛」的堅持,則能直接體現通義的本心。

放眼整個大模型行業,堅持開源政策的就沒幾家,更別說分秒必爭的頭部廠商。但通義基於促進創新、促進社區、促進生態的宗旨,每次更新基礎大模型都會直接開源。就拿上文提到的、能打敗Meta Llama的Qwen2.5-72B模型來說,也是發佈即開源。

這種對於技術的本質堅持,也體現在了落地的「形式」上。

上個月底,幾張國產AI產品廣告投放金額的圖片在AI圈內徹底火了起來,因為其中好幾個國產AI大模型的季度投放都已經破億。讓不少圍觀者感歎道「這就去學做AI博主」、「用不用不知道,但說的是真的好聽」。

相比之下,通義的投放堪稱「可憐」,一個季度僅有450萬元。除了發佈新版本的時候露個臉,剩下的全靠產品自己說話。這份自信,來自於通義強大的技術實力和產品力,哪怕投放少,用戶對通義產品的好評源源不斷,所累積的好口碑反而是靠錢堆出來曝光量換不來的。

今年7月,通義聯合上海美術電影製片廠推出國內首個孤獨症兒童AI繪本工具「追星星的AI」。這個調用了通義萬相多項能力、搭載在通義App中的應用,可以在提供簡單提示詞、篇幅、主角性別、避免出現內容的情況下,快速而自動地自動生成一篇圖文並茂的繪本故事,並且自動為用戶朗讀。

這種極為高效的繪本生成能力,讓孤獨症兒童有了進一步融入社會的可能性,在社交交往、正向情緒、語言溝通及行為矯正等方面施展積極乾預效果。

很顯然,通義在堅持「以技術驅動產品,以產品體驗驅動用戶增長」的同時,也沒忘了對於「AI有愛」的堅持。

全面擁抱開源精神、讓產品自我證明、讓AI充滿溫情,這些原則雖然看似與技術硬實力無直接關聯,但實際上它們深刻體現了通義的核心理念:將人工智能發展為一種普遍的生產力,使之普及至每個人。

秉承著「以終為始」的思維模式,通義正以其雄厚的技術實力和卓越的產品力,勢不可擋地引領著新的變革。