阿里360月之暗面角逐長文本記者實測國內大模型長文本哪家強

大模型應用Kimi智能助手火了，隨之「Kimi概念股」華策影視在3月20日至22日連續三天20%的漲停板。消息面上，其運營公司月之暗面3月18日宣佈Kimi長上下文窗口技術突破至200萬字。

但200萬字並非大語言模型的極限。3月22日，阿里雲旗下的通義千問宣佈「重磅升級」，向所有人免費開放1000萬字的長文檔處理功能。3月23日淩晨，360智腦也宣佈繼2月29日360AI瀏覽器開放100萬字長文本閱讀功能之後，500萬字長文本處理功能也即將入駐。

巨頭鏖戰為何選擇長文本，大模型長文本能力靠的是什麼？3月24日至26日，新京報貝殼財經記者採訪了多位大模型行業從業人員、學者，瞭解到大模型要實現長文本功能在算法和算力上都面臨著挑戰，但在上線長文本功能上，通過調優算法或者通過算力「大力出奇蹟」甚至使用RAG（檢索增強生成技術，是對大型語言模型輸出進行優化的方法，使其能夠在生成響應之前引用訓練數據來源之外的知識庫），都可以打造出該體驗。

因此，貝殼財經記者對目前支持上傳文檔分析的大模型進行了實測，包括Kimi、智譜清言、通義千問、文心一言、訊飛星火和360瀏覽器AI助手，發現目前雖然許多大模型都能夠分析文檔，但生成的內容質量良莠不齊，上傳文件大小或上傳文件格式也存在限制。

為何選擇長文本？長是否可保證「精」？

實際上，各個大模型對長文本的爭奪很早就開始了。百川智能、零一萬物等都曾以長文本領先業界為其宣傳噱頭，「可以上傳一部《三體》（第一部20萬字）」「可上傳《百年孤獨》（近30萬字）」。

不過，在實際應用上因長文本等功能率先在關注度上「脫穎而出」的還是月之暗面旗下的Kimi智能助手。根據七麥數據，該APP在效率（免費榜）排名從1月14日的436名提升至3月19日的11名。2月份訪問量達到近300萬次，流量增長104.99%。分別位列AI產品國內總榜Top3和全球增速榜Top1。其還引發了「Kimi概念股」的走紅。

對於長文本功能，月之暗面CEO楊植麟很早就提出了自己的設想，「通往通用人工智能（AGI）的話，無損的長上下文將會是一個很關鍵的基礎技術。歷史上所有的模型架構演進，本質上都是在提升有效的、無損的上下文長度。上下文長度可能存在摩亞定律，但需要同時優化長度和無損壓縮水平兩個指標，才是有意義的規模化。」

在他看來，長文本作為月之暗面「登月」的第一步，是新的計算機內存，很本質，個性化並非通過微調實現，上下文定義了個性化過程。楊植麟還認為，大模型的馬拉松剛開始，接下來會有更多差異化。

對於長文本功能，中國人民大學高瓴人工智能學院長聘副教授，曾主導研發算法生成人類史上第一本人工智能詩集《陽光失了玻璃窗》的桑治睿華告訴貝殼財經記者，長窗口在計算效率上有一些挑戰，但技術進步也不是線性的，月之暗面解決掉一些性能上的問題，確實可以一下子做到很長。另外，和它專注做長窗口有關，其他一些模型可能覺得那麼長沒有太多需求。

不過，隨著Kimi的持續火爆，越來越多的大模型也開始了長文本領域的「軍備競賽」：3月18日至23日，Kimi和通義千問、360AI瀏覽器先後宣佈將支持200萬、1000萬以及500萬字的長文本功能。其中，Kimi和360AI瀏覽器的相關功能處於內測和「即將推出」狀態，而通義千問已經可以直接支持1000萬字的文檔上傳了。

對此，新京報貝殼財經記者將一部400萬字左右的網絡小說《詭秘之主》TXT文檔上傳至了通義千問，並對其提出了問題，通義千問很快做出了回覆，不過其內容並非百分之百準確，如其在回答中搞混了該小說中「途徑」和「序列」的區別，不過對於一些重點問題還是給出了正確的回答。

在通義千問中上傳400萬字文檔後對其提問的回答結果截圖。

而記者將同樣的文檔上傳至Kimi智能助手和360AI瀏覽器，則發現該文檔字數超過了Kimi的字數限制，Kimi只能閱讀前4%的內容，不過其回答得更加詳細。而360AI瀏覽器則不支持上傳TXT或Word格式，只支持上傳PDF格式。

Kimi智能助手閱讀部分文檔後，對提問結果的回答截圖。

3月24日，某大模型廠商研究機構負責人告訴新京報貝殼財經記者，長文本的挑戰在算法上主要是要加大訓練參數規模的問題，大模型的本質是算概率，長文本的學習主要依靠對複雜文本的概率模型變化，所以為了保證效率算法調優是關鍵，當然如果算法搞不定也可依靠算力大力出奇蹟，因此大廠通過「堆資源」的方式很快就能挑戰Kimi的長文本功能。

有AI大模型的用戶表示，長文本功能在許多場景都極具吸引力，如從冗長的公司財報中找到有價值的信息、上傳自己撰寫的小說尋求修改意見、總結會議紀要內容等，但對於一些對內容準確度要求高的工作，大模型還只能起到輔助作用，畢竟由於AI生成本身的「幻覺」問題，難保不會出現數據錯誤，因此還需要人最後再檢查一遍。

實測長文本能力：總結書籍、財報各有千秋遺忘問題難解

貝殼財經記者發現，目前大多數大模型已經支持文本上傳功能，例如對於12萬字左右的PDF格式《中國移動有限公司2023年年度報告》，文心一言、360AI瀏覽器、Kimi、訊飛星火均可以進行分析，而智譜清言可以上傳但顯示「本次回答已被終止」，通義千問也可以上傳但顯示「由於當前的交互模式限制，我無法直接訪問或解析PDF文件內容。」

記者橫向比較財報分析內容發現，當要求「根據財報文檔分析中國移動業績情況，以及其營收的主要增長點」時，大部分模型都給出了最重要的營收和淨利潤數據，不過在分析營收增長點時，不同的大模型側重點也不同，如Kimi側重於個人市場、家庭市場、政企市場的營收，文心一言和訊飛星火均側重於無線上網業務、有線寬帶業務的營收，360則泛泛提到了營收正在增長。

文心一言對《中國移動有限公司2023年年度報告》的分析結果截圖。

Kimi對《中國移動有限公司2023年年度報告》的分析結果截圖。

360AI瀏覽器對《中國移動有限公司2023年年度報告》的分析結果截圖。

訊飛星火對《中國移動有限公司2023年年度報告》的分析結果截圖。

而對於8萬字的Word格式《牛津通識讀本》，上述大模型中除360AI瀏覽器不支持該格式上傳外，其餘大模型均可以進行內容總結和分析，其中總結的內容大同小異。

通義千問對《牛津通識讀本》的解析結果截圖。

360智譜對《牛津通識讀本》的解析結果截圖。

對於長文本能力的測試，AI科學家、矽谷創業者賈揚清認為，從嚴謹科研的角度，目前大海撈針的benchmark（基準測試）已經無法準確評價算法的優勢。他認為，可以寫一份從1到9999的數列，並隨機在中間調換兩個數字的位置，然後讓大模型來尋找順序錯亂的一個，「目前還沒有找到穩定能成功的大模型」。

對此，貝殼財經記者準備了包含從1到999順序排列數字的一行Word文檔，並將其中569和568兩個數字的順序對調，結果發現上述大模型中，360AI瀏覽器和通義千問無法解析內容，訊飛星火先顯示只能「數」到527後表示沒有兩個順序不同的數字，而Kimi則「一口咬定」順序不同的數字是21和22以及999和1000。只有智譜清言和文心一言給出了正確的答案。

對大模型長文本解析能力的數字測試截圖。

對於大模型的長文本能力，有致力於雲廠商AI生態合作的從業者對貝殼財經記者表示，其實很多AI可以做成怎麼樣（包含但不限於長文本），看學術論文就能看到方法，但確實要實現方法不是人人都能做到，做到的效果也未必都一致，並不一定是越長越好，「現在宣傳的長文本並不等於該公司有那麼長文本的模型。對用戶界面就是上傳個PDF之類的，並不能看出背後的模型的能力。不排除是用RAG或其他方式打造出來的體驗。」

在採訪中，有多位AI從業者認為，目前，長文本能力或可以成為大模型公司吸引市場關注，贏得競爭的路徑之一，不過要做好「長」「準」、成本三者之間的平衡，還需要不斷摸索。

記者聯繫郵箱：luoyidan@xjbnews.com

新京報貝殼財經記者羅亦丹

編輯嶽彩周

校對柳寶慶