小紮回應Llama 4對比DeepSeek:開源榜單有缺陷,等17B深度思考模型出來再比

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

Meta首屆LlamaCon開發者大會開幕,朱克伯格在期間接受採訪,回應大模型相關的一切。

包括Llama4在大模型競技場表現不佳的問題:

開源基準測試存在缺陷,常偏向特定不常見用例,與產品實際使用場景脫節,不能真實反映模型的優劣。

試圖為這類東西進行過多優化會誤入歧途。

對於我們團隊來說,搞一個衝到榜單頂部的Llama 4 Maverick版本相對容易,但是我們發佈的版本根本沒有對此進行調優,排名靠後是正常的。

以及與DeepSeek的比較:

我們的推理模型還沒有出來,所以還沒有和R1相應的模型去對比。

與此同時,在Meta合作夥伴亞馬遜的網站代碼中,被扒出要即將推出的Llama4推理模型為17B參數的llama4-reasoning-17b-instruct。

活動期間,有那麼點Meta不語,只是一味地拋出Llama系列「亮點」的意思了(doge):

  • 除即將推出超2萬億參數的Llama 4 Behemoth模型之外,代號「Little Llama」的80億參數小模型可能會在未來幾個月推出。

  • 推出官方Llama API平台

  • 推出一系列AI安全工具,包括檢測和防止提示注入、越獄等風險。

朱克伯格談「智能爆炸」

朱克伯格認為隨著軟件工程和AI研究的自動化推進,智能爆炸具備實現的可能性。從技術發展趨勢來看,AI寫代碼能力不斷提升,預計未來12-18個月,大部分相關代碼將由AI完成

這不僅意味著開發效率的大幅提高,還可能帶來代碼質量的提升,因為AI能夠基於大量的數據和先進的算法,生成更優化、更高效的代碼。

然而真正達到智能爆炸還面臨著諸多現實層面的製約。在物理基礎設施上,構建大規模計算集群複雜且耗時,從研發到穩定應用需要一定時間,同時還需要配套建設網絡設施,確保數據的高速傳輸;建設專門的數據中心場地,要經過嚴格的審批流程;解決能源供應問題,無論是採用傳統的燃氣輪機發電還是綠色能源,都涉及到複雜的供應鏈體系,這些環節都需要耗費大量的時間和資源。

在人機協同方面,人們對AI系統的適應和反饋同樣需要時間。AI系統並非一經推出就能被用戶熟練使用,而是需要一個相互學習的過程。用戶在使用過程中逐漸掌握與AI交互的方式,AI則通過分析用戶的行為和反饋,不斷優化自身的功能和性能。

在Meta廣告團隊的自動化排序實驗中,儘管有大量的測試想法,但由於計算資源的限制,無法對所有假設進行充分測試;同時,為了保證測試結果的準確性和可靠性,需要大量的測試人力,這也在一定程度上限制了實驗的推進速度。

朱克伯格認為,人們已經開始與AI建立起多種類型的關係,如將AI作為治療師傾訴或朋友分享生活等,產品開發者應該尊重用戶的選擇

雖然現階段這類AI人際關係相關的產品在技術實現上還不夠成熟,比如虛擬治療師或朋友的形像往往只是簡單的圖片或粗糙的動畫,缺乏真實的交互感,但隨著技術的不斷進步,為提升虛擬形象的真實感和交互性帶來了新的可能。

換句話說,AI和元宇宙戰略在未來還有聯動效應。

在產品設計理念上,避免過度干擾用戶是關鍵原則。Meta的Orion眼鏡設計目標不僅僅是集成各種先進的技術功能,更重要的是要成為一副好用的日常眼鏡。在不使用AI功能時,它要能像普通眼鏡一樣滿足用戶的基本需求,如佩戴舒適、外觀美觀;當用戶需要使用 AI 功能時,又能便捷地提供服務,如語音交互、信息展示等。

這種設計理念同樣適用於增強現實未來的產品設計,即讓物理世界和數字世界自然融合,在為用戶提供豐富數字內容的同時,避免數字元素過度充斥用戶的視野,造成視覺和心理上的負擔。

最後,朱克伯格回答了「如果軟件生產力在兩年內提高100倍」會怎麼樣。

他認為從歷史看,過去全人類大部分精力都用於養活自己,也就是從事農業為主。最近100多年來滿足基本身體需求在人類精力中的佔比越來越小。

這種轉變有兩個影響:一個是越來越多的人在追求創意和文化。第二是人們花在工作上的時間更少,而花在娛樂和文化上的時間更多。

但隨著時間的推移,如果每個人都擁有這些超人類工具來創造大量不同的東西,就會出現令人難以置信的多樣性。其中一部分成果將用於解決難題:攻克疾病、推動科學進步、開發讓我們生活更美好的新技術。

Llama首次推出官方API

此前Meta只管開源模型,部署託管各憑本事,現在終於推出官方API平台。

  • 提供微調和評估Llama模型性能的工具。

  • 新型芯片供應商Cerebras和Groq合作,提供高推理速度的選項。

  • 承諾不會使用客戶數據來訓練自己的模型。

目前屬於邀請測試階段,需要排隊。

不過手快的開發者在會場上就把Demo做出來了。

利用多模態能力,描述相機拍到的畫面,整體上描述準確,不過其實這根香蕉是玩具,對AI來說還是難了。

Llama API:Llama API:

https://www.llama.com/products/llama-api/#llama-protections

Demo試玩:

https://llama-api-launch.craigsdemos.workers.dev

參考鏈接:

[1]https://www.dwarkesh.com/p/mark-zuckerberg-2

[2]https://x.com/craigsdennis/status/1917365062165225544

[3]https://x.com/btibor91/status/1917232574344384522