阿里雲推出 Qwen2.5-Turbo 專為處理長文今場景設計支持 100 萬 Token 的上下文

11月19日 12:13 新浪網 tech-auto-hilite

阿里雲推出 Qwen2.5-Turbo 專為處理長文今場景設計

支持 100 萬 Token 的上下文長度，相當於 10 部完整小說、150 小時的語音轉錄或 30,000 行代碼。
在 Passkey Retrieval 任務中實現 100% 的準確率。
處理 100 萬 Token 的時間從原來的 4.9 分鐘減少到 68 秒，提升 4.3 倍。
處理 100 萬 Token 的費用為 ¥0.3，與 GPT-4o-mini 相比，在相同成本下處理 3.6 倍的內容。

理解長篇小說，上傳The Three-Body Problem三本中文小說，共69萬token

1. 長文本任務性能

超長文本處理能力

上下文長度支持 100 萬 Token
- 能處理超長文本，約等於 10 部完整小說或 30,000 行代碼。
- Passkey Retrieval 任務：實現 100% 準確率。
長文本評估基準測試表現優異
- RULER 基準：得分 93.1，高於 GPT-4（91.6）和 GLM4-9B-1M（89.9）。
- LV-Eval 和 LongBench-Chat：在多個長文本任務中超越 GPT-4o-mini，處理超長上下文任務能力強。
細節捕獲與複雜理解
- 在超長上下文中，能準確捕捉隱藏信息，回答覆雜問題，並找到大量上下文中的關鍵信息。
2. 短文本任務性能
- 短文本任務穩定性
  - 長上下文支持沒有影響短文本任務的能力。
  - 在短文本基準測試中表現與 GPT-4o-mini 相當。
  - 優秀的長文本理解能力
    - 在複雜的長文本任務（如 LV-Eval、LongBench-Chat）中表現優於 GPT-4o-mini。
    - 可處理超過 128K Token 的任務場景。
    - Qwen2.5-Turbo 支持的上下文長度是 GPT-4o-mini 的 8 倍，但短文本任務性能幾乎無損。
    3. 推理速度
    - 時間優化
      - 在 100 萬 Token 輸入下，首次生成 Token 的時間縮短至 68 秒，提升 4.3 倍（原為 4.9 分鐘）。
      - 稀疏注意力機制：顯著壓縮計算量，效率提升 12.5 倍。
      硬件兼容性
      - 在多種硬件配置下都能提供穩定的推理速度。
      4. 性價比
      - 高效計算
        
        相同成本下，Qwen2.5-Turbo 處理的 Token 數是 GPT-4o-mini 的 3.6 倍。
        
        每處理 100 萬 Token 的費用僅為 ¥0.3。
        
        5. 綜合評價
        
        優於同類競品：在長文本任務中超越 GPT-4 和其他同類模型。
        
        任務適應性強：兼具長文本理解的深度和短文本處理的精準性。
        
        推理效率高：無論在超長文本還是複雜任務中，都能以更快的速度完成。
        
        理解多篇論文上傳7篇關於長上下文LLM論文，長度為171k tokens
        
        官方介紹：https://qwenlm.github.io/blog/qwen2.5-turbo/
        
        在線演示：https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
        
        API文檔：https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen