微軟發佈Phi-3.5-vision 輕量級、多模態的開源模型端側運行可進行複雜視覺推理

微軟發佈Phi-3.5-vision 輕量級、多模態的開源模型，其屬於Phi-3模型家族。該模型專為需要文本和視覺輸入的應用而設計，重點處理高質量、高推理密度的數據。它支持128K的上下文長度，並經過嚴格的微調和優化過程，旨在在內存或計算資源有限、低延遲要求高的環境中廣泛用於商業和研究領域。

該模型具備廣泛的圖像理解、光學字符識別（OCR）、圖表和表格解析、多圖像或影片剪輯摘要等功能，非常適合多種AI驅動的應用，在圖像和影片處理相關的基準測試中表現出顯著的性能提升。

Phi-3.5-vision 模型使用高質量的教育數據、合成數據和經過嚴格篩選的公開文檔進行訓練，確保數據質量和隱私。其架構包括一個42億參數的系統，集成了圖像編碼器、連接器、投影器和Phi-3 Mini語言模型。

Phi-3.5-vision包括三款模型：

1. Phi-3.5 Mini Instruct：

參數量：3.82億參數。
設計目標：這是一個輕量級AI模型，主要針對需要在內存或計算資源有限的環境中進行強大推理的場景，比如代碼生成、數學問題求解以及基於邏輯的推理任務。
上下文長度：支持128K的token上下文長度。
性能表現：儘管模型體積較小，但在多語言和多輪對話任務中表現出色，在「長上下文代碼理解」基準測試（RepoQA）中，超越了類似大小的模型（如Llama-3.1-8B-instruct和Mistral-7B-instruct）。
應用場景：特別適合那些對計算資源要求較高的場景，能在保證推理能力的前提下減少資源消耗。

2. Phi-3.5 MoE (Mixture of Experts)：

參數量：41.9億參數（具有42億活動參數，但實際活躍參數為6.6億）。
設計目標：這是微軟首次推出的「專家混合」模型（Mixture of Experts），結合了多個不同類型的模型，各自專注於不同的任務。這種架構使得該模型能夠在多語言理解、代碼和數學推理等複雜任務中表現出色。
上下文長度：支持128K的token上下文長度。
性能表現：在多個基準測試中超越了體積更大的模型，如在大規模多任務語言理解（MMLU）測試中，Phi-3.5 MoE 在STEM、人文學科和社會科學等多領域的5-shot測試中表現優異，擊敗了GPT-4o mini。
應用場景：適用於需要處理複雜AI任務的應用，尤其是在多語言環境和複雜推理場景中表現突出。

3. Phi-3.5 Vision Instruct：

參數量：4.15億參數。
設計目標：這款多模態模型集成了文本和圖像處理功能，特別適合處理諸如圖像理解、光學字符識別（OCR）、圖表和表格解析以及影片摘要等任務。
上下文長度：同樣支持128K的token上下文長度。
性能表現：該模型在多幀圖像處理和複雜視覺任務中表現出色，能夠高效地管理複雜的多模態任務。模型的訓練數據包括合成數據和經過過濾的公開數據，確保了高質量和推理密度。
應用場景：主要應用於需要綜合處理視覺和文本數據的複雜任務中，如多幀圖像對比和影片內容總結。

主要功能特點

圖像理解
- 具備對單張圖像和多張圖像進行詳細理解的能力，能夠識別圖像中的內容，並提供相關描述和分析。
- 可用於一般的圖像理解任務，如識別圖像中的物體、場景或其他重要元素。
光學字符識別 (OCR)
- 能夠從圖像中提取和識別文本內容，適用於處理包含文字的圖像，如文檔掃瞄、圖像中的標註等。
圖表和表格理解
- 可解析圖表和表格中的信息，幫助用戶從複雜的圖形數據中提取有用的見解。
- 適用於財務報表分析、數據可視化理解等場景。
多圖像對比
- 能夠對多張圖像進行對比數析，找出圖像之間的異同點。
- 適用於多幀圖像或影片片段的比較和總結，支持複雜的多圖像推理。
多圖像或影片剪輯摘要
- 提供對多張圖像或影片片段的綜合總結功能，能夠提煉出關鍵內容，生成簡明的總結性描述。
- 非常適合用於新聞報導、影片編輯或任何需要快速理解和總結大量視覺內容的應用場景。
高效的推理能力
- 強調推理密度，能夠在處理複雜問題時提供深入且有邏輯的推理結果。
- 適用於需要高質量推理的場景，如科學研究、複雜問題求解等。
低延遲和內存優化
- 針對計算資源受限和需要低延遲響應的環境進行了優化，使其能夠在各種設備和場景下高效運行。
- 非常適合用於需要快速響應的實時應用，如互動式AI系統、嵌入式系統等。

模型架構：

參數量：Phi-3.5-vision 擁有 42億個參數，結構包括圖像編碼器、連接器、投影器和Phi-3 Mini語言模型。
輸入：該模型接受文本和圖像作為輸入，最適合使用對話格式的提示進行操作。
上下文長度：支持長達128K的上下文長度（以token為單位）。
GPU：訓練時使用了256個NVIDIA A100-80G GPU。
訓練時間：模型訓練時間為6天。

訓練數據：

數據規模：模型的訓練數據包括5000億個token（包括視覺和文本token）。
數據來源
- 公開文檔：包含了經過嚴格篩選的高質量公開文檔。
- 教育數據和代碼：選擇了高質量的教育數據和代碼進行訓練。
- 圖像-文本數據：使用高質量的圖像-文本混合數據進行訓練。
- 合成數據：創建了用於教學的合成數據，涵蓋數學、編碼、常識推理、世界通識（如科學、日常活動、心智理論等），以及新創建的圖像數據（如圖表、表格、幻燈片）和多圖像及影片數據（如短影片剪輯、兩張相似圖像對等）。
- 人工監督數據：收集了覆蓋廣泛主題的高質量對話格式監督數據，以反映人類偏好，如指令遵循、真實度、誠實度和有用性。

訓練方法：

微調過程：Phi-3.5-vision 經過了嚴格的微調，包括監督微調（SFT）和基於人類反饋的強化學習（RLHF）方法，確保模型在不同任務中的表現能夠滿足高標準的安全性和準確性要求。
數據過濾：在數據收集過程中，經過了嚴格的過濾流程，以確保訓練數據的高質量，並且避免包含任何潛在的個人信息，保護隱私。
模型穩定性：該模型為靜態模型，訓練數據集的截止日期為2024年3月15日。後續可能會發佈優化版本，以進一步提升模型性能。

基準測試結果：

Phi-3.5-vision 在多項基準測試中展示了其在圖像理解、推理和文本生成任務中的出色表現。以下是一些關鍵基準測試的具體成績：

MMMU (Multi-Modal Multi-Image Understanding)
- 得分: 43.0（相較於之前版本40.2有所提升）
- 說明: 該基準測試評估模型在多模態、多圖像理解任務中的表現，Phi-3.5-vision在這一測試中的提升顯示了其在處理複雜圖像理解任務時的增強能力。
MMBench (Multi-Modal Benchmark)
- 得分: 81.9（相較於之前版本80.5有所提升）
- 說明: 該測試衡量了模型在多模態任務中的整體表現，Phi-3.5-vision的高得分表明其在多模態任務中的廣泛適用性和強大性能。
TextVQA (Text-based Visual Question Answering)
- 得分: 72.0（相較於之前版本70.9有所提升）
- 說明: 該基準測試評估模型在處理包含文本的圖像時的問答能力，Phi-3.5-vision 的改進表明其在視覺問答任務中的準確性有所提升。
影片處理能力 (Video-MME)
- 短影片（<2分鐘）: 60.8
- 中等長度影片（4-15分鐘）: 47.7
- 長影片（30-60分鐘）: 43.8
- 總體得分: 50.8
- 說明: Phi-3.5-vision在影片數據處理上的表現優異，尤其是在短影片的處理上表現突出，能夠有效分析和總結影片內容。