阿里雲推出 Qwen2.5-Turbo 專為處理長文今場景設計 支持 100 萬 Token 的上下文
阿里雲推出 Qwen2.5-Turbo 專為處理長文今場景設計
- 支持 100 萬 Token 的上下文長度,相當於 10 部完整小說、150 小時的語音轉錄或 30,000 行代碼。
- 在 Passkey Retrieval 任務中實現 100% 的準確率。
- 處理 100 萬 Token 的時間從原來的 4.9 分鐘減少到 68 秒,提升 4.3 倍。
- 處理 100 萬 Token 的費用為 ¥0.3,與 GPT-4o-mini 相比,在相同成本下處理 3.6 倍的內容。
理解長篇小說,上傳The Three-Body Problem三本中文小說,共69萬token
1. 長文本任務性能
超長文本處理能力
-
上下文長度支持 100 萬 Token
- 能處理超長文本,約等於 10 部完整小說或 30,000 行代碼。
- Passkey Retrieval 任務:實現 100% 準確率。
長文本評估基準測試表現優異
- RULER 基準:得分 93.1,高於 GPT-4(91.6)和 GLM4-9B-1M(89.9)。
- LV-Eval 和 LongBench-Chat:在多個長文本任務中超越 GPT-4o-mini,處理超長上下文任務能力強。
細節捕獲與複雜理解- 在超長上下文中,能準確捕捉隱藏信息,回答覆雜問題,並找到大量上下文中的關鍵信息。
2. 短文本任務性能
-
短文本任務穩定性
- 長上下文支持沒有影響短文本任務的能力。
- 在短文本基準測試中表現與 GPT-4o-mini 相當。
-
優秀的長文本理解能力
- 在複雜的長文本任務(如 LV-Eval、LongBench-Chat)中表現優於 GPT-4o-mini。
- 可處理超過 128K Token 的任務場景。
- Qwen2.5-Turbo 支持的上下文長度是 GPT-4o-mini 的 8 倍,但短文本任務性能幾乎無損。
3. 推理速度
-
時間優化
- 在 100 萬 Token 輸入下,首次生成 Token 的時間縮短至 68 秒,提升 4.3 倍(原為 4.9 分鐘)。
- 稀疏注意力機制:顯著壓縮計算量,效率提升 12.5 倍。
硬件兼容性
- 在多種硬件配置下都能提供穩定的推理速度。
4. 性價比
-
高效計算
- 相同成本下,Qwen2.5-Turbo 處理的 Token 數是 GPT-4o-mini 的 3.6 倍。
- 每處理 100 萬 Token 的費用僅為 ¥0.3。
5. 綜合評價
- 優於同類競品:在長文本任務中超越 GPT-4 和其他同類模型。
- 任務適應性強:兼具長文本理解的深度和短文本處理的精準性。
- 推理效率高:無論在超長文本還是複雜任務中,都能以更快的速度完成。
理解多篇論文 上傳7篇關於長上下文LLM論文,長度為171k tokens
官方介紹:https://qwenlm.github.io/blog/qwen2.5-turbo/
在線演示:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
API文檔:https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen