開源多模態大模型黑馬Molmo Al來襲！部分能力超越GPT-4o和Claude 3.5

（來源：MIT TR）

非營利研究機構艾倫人工智能研究所（簡稱 Ai2）正在推知名為「Molmo」的開源多模態語言模型，據稱該模型的性能可與 OpenAI、Google 和 Anthropic 的頂級專有模型相媲美。

該組織聲稱，其最大的 Molmo 模型擁有 720 億個參數，在測量理解圖像、圖表和文檔等內容的測試中，其性能優於 OpenAI 的 GPT-4o（GPT-4o 擁有超過一萬億個參數）。

與此同時，Ai2 表示，一個較小的 Molmo 模型（擁有 70 億個參數），其性能接近 OpenAI 最先進的模型，這一成就主要歸功於更高效的數據收集和訓練方法。

Ai2 首席執行官 Ali Farhadi 表示，Molmo 表明，開源人工智能開發與封閉的專有模型不相上下。開源模型具有顯著的優勢，因為它們的開放性意味著其他人可以在其上構建應用程序。Molmo 演示可點擊鏈接查看（https://molmo.allenai.org/），開發人員也可以在 Hugging Face 網站上對其進行修改。（最強大的 Molmo 模型的某些元素仍被屏蔽。）

其他大型多模態語言模型是在包含從互聯網上獲取的數十億圖像和文本樣本的龐大數據集上進行訓練的，並且它們可以包含數萬億個參數。Ai2 的高級研究主管 Ani Kembhavi 表示，這個過程給訓練數據帶來了很多噪音，並隨之產生了幻覺。相比之下，Ai2 的 Molmo 模型是在一個更小、更「精心策劃」的數據集上進行訓練的，該數據集僅包含 60 萬張圖像，並且具有 10 億到 720 億個參數。Kembhavi 表示，這種對高質量數據的關注，而不是不加區別地抓取數據，用更少的資源實現了更好的性能。

Ai2 通過讓人類註釋者在多頁文本上以極其詳細的方式描述模型訓練數據集中的圖像來實現這一目標。他們要求註釋者談論他們所看到的內容，而不是打字。然後，他們使用人工智能技術將語音轉換為數據，這使得訓練過程更快，同時降低了算力需求。

如果我們想要有效地管理用於人工智能開發的數據，這些技術可能會非常有用。Hugging Face 的機器學習和社會負責人 Yacine Jernite 表示，他沒有參與這項研究。

史丹福大學基礎模型研究中心主任 Percy Liang 也沒有參與這項研究，他說：「一般來說，用更高質量的數據進行訓練可以降低計算成本，這是有道理的。」

另一個令人印象深刻的能力是，該模型可以「指向」圖像相關部分，這意味著它可以通過識別回答查詢的像素來分析圖像的元素。

在與《麻省理工科技評論》分享的演示中，Ai2 研究人員在西雅圖的辦公室外拍了一張照片，並要求模型識別圖像中的各種元素，例如躺椅。該模型成功地描述了圖像中包含的內容，計算了躺椅的數量，並按照研究人員的要求準確地指出了圖像中的其他事物。然而，它也並不完美。比如它無法找到特定的停車場。

Farhadi 說，其他先進的人工智能模型擅長描述場景和圖像。但是，當您想要構建更複雜的智能體，可以與世界交互，例如預訂航班時，這還不夠。他說，「指向」可以讓人們與用戶界面進行交互。

Jernite 表示，與我們在其他人工智能公司看到的相比，Ai2 的運營更加開放。他說，雖然 Molmo 是一個良好的開端，但它的真正意義在於開發人員在其基礎上構建的應用程序，以及人們改進它的方式。

Farhadi 對此表示同意。過去幾年，人工智能公司吸引了數萬億美元的巨額投資。但在過去的幾個月裡，投資者對這項投資能否帶來回報表示懷疑。他認為，大型、昂貴的專有模型無法做到這一點，但開源模型可以。他說，這項工作表明，開源人工智能也可以以有效利用資金和時間的方式構建。

「我們很高興能為其他人提供支持，並看看其他人會用它來構建什麼。」Farhadi 說。

原文鏈接：

https://www.technologyreview.com/2024/09/25/1104465/a-tiny-new-open-source-ai-model-performs-as-well-as-powerful-big-ones/

你可能喜歡