阿里雲推出 Qwen2.5-Turbo 專為處理長文今場景設計 支持 100 萬 Token 的上下文

阿里雲推出 Qwen2.5-Turbo 專為處理長文今場景設計

  • 支持 100 萬 Token 的上下文長度,相當於 10 部完整小說、150 小時的語音轉錄或 30,000 行代碼。
  • 在 Passkey Retrieval 任務中實現 100% 的準確率。
  • 處理 100 萬 Token 的時間從原來的 4.9 分鐘減少到 68 秒,提升 4.3 倍。
  • 處理 100 萬 Token 的費用為 ¥0.3,與 GPT-4o-mini 相比,在相同成本下處理 3.6 倍的內容。

理解長篇小說,上傳The Three-Body Problem三本中文小說,共69萬token

1. 長文本任務性能

超長文本處理能力

  • 上下文長度支持 100 萬 Token

    • 能處理超長文本,約等於 10 部完整小說或 30,000 行代碼。
    • Passkey Retrieval 任務:實現 100% 準確率。

    長文本評估基準測試表現優異

    • RULER 基準:得分 93.1,高於 GPT-4(91.6)和 GLM4-9B-1M(89.9)。
    • LV-Eval 和 LongBench-Chat:在多個長文本任務中超越 GPT-4o-mini,處理超長上下文任務能力強。
    細節捕獲與複雜理解
    • 在超長上下文中,能準確捕捉隱藏信息,回答覆雜問題,並找到大量上下文中的關鍵信息。

    2. 短文本任務性能

    • 短文本任務穩定性

      • 長上下文支持沒有影響短文本任務的能力。
      • 在短文本基準測試中表現與 GPT-4o-mini 相當。
      • 優秀的長文本理解能力

        • 在複雜的長文本任務(如 LV-Eval、LongBench-Chat)中表現優於 GPT-4o-mini。
        • 可處理超過 128K Token 的任務場景。
        • Qwen2.5-Turbo 支持的上下文長度是 GPT-4o-mini 的 8 倍,但短文本任務性能幾乎無損。

        3. 推理速度

        • 時間優化

          • 在 100 萬 Token 輸入下,首次生成 Token 的時間縮短至 68 秒,提升 4.3 倍(原為 4.9 分鐘)。
          • 稀疏注意力機制:顯著壓縮計算量,效率提升 12.5 倍。

          硬件兼容性

          • 在多種硬件配置下都能提供穩定的推理速度。

          4. 性價比

          • 高效計算

            • 相同成本下,Qwen2.5-Turbo 處理的 Token 數是 GPT-4o-mini 的 3.6 倍。
            • 每處理 100 萬 Token 的費用僅為 ¥0.3。

            5. 綜合評價

            • 優於同類競品:在長文本任務中超越 GPT-4 和其他同類模型。
            • 任務適應性強:兼具長文本理解的深度和短文本處理的精準性。
            • 推理效率高:無論在超長文本還是複雜任務中,都能以更快的速度完成。

            理解多篇論文 上傳7篇關於長上下文LLM論文,長度為171k tokens

            官方介紹:https://qwenlm.github.io/blog/qwen2.5-turbo/

            在線演示:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo

            API文檔:https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen