大模型的2024,這可能是最早的一篇年度總結文!

來源:華爾街見聞

GPT-4被「普遍超越」,557萬美元就能訓練頂級AI大模型?一文看懂2024年大模型的顛覆性突破!

從某種意義上說,2024年不僅是技術突破的一年,更是行業走向成熟的重要轉折點。

這一年,GPT-4級別的模型不再罕見,許多機構都開發出了性能超越GPT-4的模型;這一年,運行效率顯著提高,成本急劇下降;這一年,多模態LLM,特別是支持圖像、音頻和影片處理的模型,變得越來越普遍。

技術的進步也帶來了應用場景的繁榮。基於提示詞的應用程序生成成為行業標配,語音對話和實時攝像頭交互讓科幻場景成為現實。當年末OpenAI推出o1系列推理型模型,開創通過優化推理階段提升性能的新範式時,整個行業又向前邁進了一大步。

當地時間12月31日,獨立AI研究員、Django締造者、Simon Willison撰文回顧總結2024年大語言模型領域的重要事件,並列出了近20個關鍵主題、重要時刻和行業洞察。

以下為重點內容:

GPT-4壁壘被全面打破:截至2024年底,已有18家機構的70個模型在ChatbotArena排行榜上的得分超過了2023年3月發佈的原始GPT-4。

頂級大模型的訓練成本大幅降低:DeepSeek v3僅需557萬美元訓練成本,便可達到與Claude 3.5 Sonnet等模型比肩的性能。

LLM價格大幅下降:由於競爭加劇和效率提高,LLM的運行成本大幅下降。例如,Google的Gemini1.5Flash8B比2023年的GPT-3.5Turbo便宜27倍。更低的成本將進一步推動LLM的普及和應用

多模態視覺模型普及,音頻和影片模型開始出現:2024年,幾乎所有主要的模型供應商都發佈了多模態模型,能夠處理圖像、音頻和影片輸入。這使得LLM能夠處理更豐富的信息類型,拓展了其應用領域。

語音和實時攝像頭模式將科幻小說變為現實:ChatGPT和GoogleGemini現在都支持語音和實時攝像頭模式,用戶可以通過語音和影片與模型進行交互。這將為用戶提供更自然、更便捷的交互方式

部分GPT-4級模型可在筆記本電腦上運行:得益於模型效率的提升,一些GPT-4級模型,例如Qwen2.5-Coder-32B和Meta的Llama3.370B,現在可以在64GB內存的筆記本電腦上運行。這標誌著LLM的硬件要求正在降低,為更廣泛的應用場景打開了大門。

基於Prompt的應用程序生成已成為常態:LLM現在可以根據Prompt生成完整的交互式應用程序,包括HTML、CSS和JavaScript代碼。Anthropic的ClaudeArtifacts、GitHubSpark和MistralChat的Canvas等工具都提供了這項功能。這一功能極大地簡化了應用程序開發流程,為非專業程序員提供了構建應用程序的途徑。

對最佳模型的普遍訪問只持續了幾個月:OpenAI推出ChatGPTPro付費訂閱服務,限制了對最佳模型的免費訪問。這反映了LLM商業模式的演變,未來可能會出現更多付費模式。

「Agent」仍未真正實現:「Agent」一詞缺乏明確的定義,其效用也受到質疑,因為LLM容易輕信虛假信息。如何解決LLM的可信度問題是實現「Agent」的關鍵

評估至關重要:為LLM系統編寫良好的自動評估對於構建有用的應用程序至關重要。有效的評估體系能夠幫助開發者更好地理解和改進LLM

合成訓練數據效果良好:越來越多的AI實驗室使用合成數據來訓練LLM,這有助於提高模型的性能和效率。合成數據可以克服真實數據的局限性,為LLM訓練提供更靈活的選擇。

LLM的環境影響喜憂參半:一方面,模型效率的提升降低了單次推理的能源消耗。另一方面,大型科技公司為LLM構建基礎設施的競賽導致了大量的數據中心建設,加劇了對電力網絡和環境的壓力。

LLM使用難度增加:隨著LLM功能的不斷擴展,其使用難度也在增加。用戶需要更深入地瞭解LLM的工作原理和局限性,才能更好地利用其優勢。

原文編譯如下,祝大家元旦快樂,enjoy:

GPT-4:從「無法企及」到「普遍超越」

在過去的一年里,大語言模型(LLM)領域經歷了翻天覆地的變化。回望2023年底,OpenAI的GPT-4還是一座難以踰越的高峰,其他AI實驗室都在思考同一個問題:OpenAI究竟掌握了什麼獨特的技術秘密?

一年後的今天,形勢已發生根本性轉變:據Chatbot Arena排行榜顯示,原始版本的GPT-4(GPT-4-0314)已跌至第70位左右。目前,已有18家機構的70個模型在性能上超越了這個曾經的標杆。

Google的Gemini 1.5 Pro在2024年2月率先突破,不僅達到GPT-4水平,還帶來兩項重大創新:它將輸入上下文長度提升至100萬token(後來更新至200萬),並首次實現了影片輸入處理能力,為整個行業開創了新的可能性。

緊隨其後,Anthropic於3月推出Claude 3系列,其中Claude 3 Opus迅速成為業界新標杆。6月發佈的Claude 3.5 Sonnet更是將性能推向新高度,即使在10月獲得重大升級後仍保持相同版本號(業內非正式稱為Claude 3.6)。

2024年最顯著的技術進步是模型處理長文本能力的全面提升。僅僅一年前,大多數模型還局限於4096或8192個token的處理能力,只有Claude 2.1例外地支持20萬token。而現在,幾乎所有主流提供商都支持10萬以上token的處理能力。這一進步極大拓展了LLM的應用範圍——用戶不僅可以輸入整本書籍進行內容分析,更重要的是,在編程等專業領域,通過輸入大量示例代碼,模型能夠提供更準確的解決方案。

目前,超越GPT-4的陣營已經相當龐大。如果你今天瀏覽Chatbot Arena排行榜,GPT-4-0314已經跌至第70位左右。擁有得分較高的模型的18個組織是:Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton和騰訊。

這種變化深刻地反映了AI領域的快速發展。在2023年,超越GPT-4還是一個值得載入史冊的重大突破,而到了2024年,這似乎已經成為衡量頂級AI模型的基本門檻。

部分GPT-4級模型實現個人電腦本地運行

2024年,大語言模型領域迎來另一重要突破:GPT-4級別的模型已可在普通個人電腦上運行。這打破了「高性能AI模型必須依賴昂貴數據中心」的傳統認知。

以64GB內存的M2 MacBook Pro為例,同一台2023年僅能勉強運行GPT-3級模型的設備,現在已能運行多個GPT-4級模型,包括開源的Qwen2.5-Coder-32B和Meta‘s Llama 3.3 70B。

這一突破令人驚訝,因為此前運行GPT-4級模型被認為需要一台數據中心級服務器,配備一個或多個價值40000美元以上的GPU。

更引人注目的是Meta的Llama 3.2系列。其1B和3B版本雖不及GPT-4,但性能遠超模型規模預期。用戶甚至可通過MLC Chat iOS應用在iPhone上運行Llama 3.2 3B,這個僅需2GB存儲空間的模型就能以每秒20個token的速度生成內容。

它們能夠運行的事實證明了,很多模型在過去一年中取得了令人難以置信的訓練和推理性能提升。

由於競爭和效率提高,模型價格暴跌

過去12個月裡,大模型的價格出現了急劇下降。

2023年12月,OpenAI對GPT-4收取30美元/百萬輸入tokens的費用。如今,30美元/mTok的價格可以讓你獲得OpenAI最昂貴的模型o1。GPT-4o的價格為2.50美元(比 GPT-4 便宜12倍),GPT-4o mini的價格為0.15美元/mTok——比GPT-3.5便宜近7倍,而且功能強大得多。

其他模型供應商收費更低。Anthropic的Claude 3 Haiku(3 月份推出,但仍是其最便宜的型號)價格為0.25 美元/mTok。Google的Gemini 1.5 Flash價格為0.075美元/mTok,而他們的Gemini 1.5 Flash 8B價格為0.0375美元/mTok — 比去年的GPT-3.5 Turbo便宜27倍。

這些價格下降是由兩個因素推動的:競爭加劇和效率提高。

多模態 LLM 興起

一年前,最引人注目的例子是GPT-4 Vision,它於2023年11月在OpenAI的DevDay上發佈。Google的多多模態模型Gemini 1.0於2023 年 12 月 7 日發佈。

2024年,幾乎每個重要的模型供應商都發佈了多模態模型。我們在3月看到了 Anthropic的Claude 3系列, 4月看到了Gemini 1.5 Pro (圖像、音頻和影片),然後9月帶來了Qwen2-VL和Mistral的Pixtral 12B以及 Meta 的Llama 3.2 11B和90B視覺模型。我們在10月獲得了來自OpenAI 的音頻輸入和輸出,然後11月看到了Hugging Face 的 SmolVLM ,12月看到了來自 Amazon Nova 的圖像和影片模型。

多模態是LLM的巨大進步,能夠針對圖像(以及音頻和影片)運行提示是應用這些模型的一種令人著迷的新方法。

語音和實時影片釋放想像力

開始出現的音頻和實時影片模式值得特別提及。

與 ChatGPT 對話的能力於 2023 年 9 月首次實現,不過當時只是語音轉文本模型和新的文本轉語音模型的對接。

5月13日發佈的 GPT-4o 進行了一個全新語音模式的演示,該模型可以接受音頻輸入並輸出聽起來非常逼真的語音,而無需單獨的 湯臣S 或 S湯臣 模型。

當 ChatGPT 高級語音模式終於推出時(從 8 月到 9 月緩慢推出),效果非常驚人。OpenAI 並不是唯一一家擁有多模態音頻模型的團隊。Google的 Gemini 也接受音頻輸入,而且 Google Gemini 應用程序現在可以以與 ChatGPT 類似的方式說話。亞馬遜還預告了Amazon Nova 的語音模式,但該模式將於 2025 年第一季度推出。

Google於 9 月發佈的 NotebookLM將音頻輸出提升到了一個新水平,它可以讓兩個「播客主持人」就您輸入到其工具中的任何內容進行令人毛骨悚然的逼真對話。

12 月份,實時影片成為新的焦點。ChatGPT現在實現了與模型分享攝像頭,並實時討論所看到的內容。Google Gemini 也展示了具有相同功能的預覽版本。

即時驅動的應用程序生成已經是一種商品

2023 年的 GPT-4 就已實現這一點,但其提供的價值在 2024 年才顯現出來。

大模型在編寫代碼方面非常出色,如果你正確地給出一個提示,它們就可以使用 HTML、CSS 和 JavaScript構建一個完整的交互式應用程序。

當 Anthropic 發佈Claude Artifacts時,他們大力推動了這一想法,這是一項突破性的新功能。通過 Artifacts,Claude 可以為您編寫一個按需交互式應用程序,然後讓您直接在 Claude 界面內使用它。

從那時起,許多其他團隊也建立了類似的系統。GitHub 於 10 月發佈了他們的版本GitHub Spark。Mistral Chat於 11 月將其添加為名為 Canvas 的功能。

這個提示驅動的自定義界面功能非常強大且易於構建,預計它將在 2025 年作為一項功能出現在廣泛的產品中。

最佳模型的免費使用僅持續了短短幾個月

今年短短幾個月內,三款最佳型號——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——均在全球大部分地區免費提供。

OpenAI於 5 月向所有用戶免費提供 GPT-4o ,而 Claude 3.5 Sonnet 自6 月發佈以來也免費提供。這是一個重大變化,因為在過去的一年里,免費用戶大多隻能使用 GPT-3.5 級別的模型。

隨著 OpenAI 推出ChatGPT Pro,那個時代似乎已經結束,而且可能永遠結束了。這項每月 200 美元的訂閱服務是訪問其功能最強大的模型 o1 Pro 的唯一途徑。

由於 o1 系列(以及其他的未來模型)背後的技巧是花費更多的計算時間來獲得更好的結果,我認為免費使用最佳可用模型的日子不太可能再回來。

「Agent」 還沒有真正出現

「Agent」一詞非常令人沮喪,因為它缺乏單一、明確且廣泛理解的含義。如果你告訴我你正在構建「Agent」,那麼你幾乎沒有向我傳達任何信息。

我看到的「Agent」的兩個主要類別是:一種認為AI 智能體是那些代表你行動的東西——類似旅行 Agent的模型;另一種則認為AI 智能體是能夠訪問工具並通過這些工具在解決問題過程中循環運行的大語言模型(LLM)。此外,「自治」這個術語也常常被加入進來,但同樣沒有給出明確的定義。

不管該術語的含義如何,Agent仍然有那種永遠「即將到來」的感覺。拋開術語不談,我仍然對 Agent的實用性持懷疑態度。

評估真的很重要

2024 年,有一點變得非常明顯:為 LLM 驅動的系統編寫良好的自動化評估是在這些模型之上構建有用應用程序最需要的技能。

如果您擁有強大的評估套件,您就可以更快地採用新模型,更好地進行迭代,並構建比競爭對手更可靠、更有用的產品功能。

每個人都知道評估很重要,但仍然缺乏關於如何最好地實施它們的良好指導。

Apple Intelligence 很糟糕,Apple 的 MLX 庫很棒

作為 Mac 用戶,去年我覺得缺少一台配備 NVIDIA GPU 的 Linux/Windows 機器,這對嘗試新模型來說是一個巨大的劣勢。2024 年就好多了。

在實際操作中,許多模型是以模型權重和庫的形式發佈的,這些庫更偏向於支持NVIDIA的CUDA,而不是其他平台。

在這方面,llama.cpp生態系統提供了很大幫助,但真正的突破是蘋果的MLX庫,「一個為Apple Silicon設計的數組框架」。它非常棒。

蘋果的mlx-lm Python支持在我的Mac上運行多種MLX兼容模型,性能出色。Hugging Face上的mlx-community提供了超過1,000個已經轉換為所需格式的模型。

雖然MLX是一個遊戲規則改變者,但蘋果自家的「Apple Intelligence」功能大多令人失望。Apple 的 LLM 功能只是對前沿 LLM 功能的拙劣模仿。

「推理」模型的興起

2024 年最後一個季度最有趣的發展是新的推理模型的出現。以 OpenAI 的 o1 模型為例——最初於 9 月 12 日作為 o1-preview 和 o1-mini 發佈。

推理模型最大的創新是它開闢了一種擴展模型的新方法:模型不再僅僅通過在訓練時增加計算來提高模型性能,而是可以通過在推理上投入更多的計算來解決更難的問題。

o1 的續集o3於12月20日發佈,並在ARC-AGI 基準測試中取得了令人印象深刻的結果,但是成本也不低,預計總的計算時間費用成本超過100 萬美元。o3預計將於2025年1月正式開放使用。

OpenAI並不是唯一一家參與該類別的公司。Google於12月19日發佈了該類別的首款參賽者gemini-2.0-flash-thinking-exp。阿里巴巴Qwen團隊於11月28日發佈了他們的QwQ模型;DeepSeek於11月20日通過其聊天界面開放了DeepSeek-R1-Lite-Preview模型供試用。Anthropic和 Meta 尚未有任何進展,但是它們一定會跟進。

中國最好的LLM訓練成本低於600萬美元?

2024年年底的重大新聞是DeepSeek v3 的發佈。DeepSeek v3 是一個巨大的 685B 參數模型,部分基準測試將其表現與 Claude 3.5 Sonnet 並列。

Vibe 基準測試目前將其排在第7位,僅次於 Gemini 2.0 和 OpenAI 4o/o1 模型。這是迄今為止排名最高的開源許可模型。

DeepSeek v3 真正令人印象深刻的是訓練成本。該模型在 2788000 個 H800 GPU 小時上進行訓練,估計成本為 5576000 美元。Llama 3.1 405B 訓練了 30,840,000 個 GPU 小時——是 DeepSeek v3 所用時間的 11 倍,但基準測試結果略差。

環境影響有所改善

模型(託管模型和在本地運行的模型)效率的提高帶來了一個可喜的結果是,在過去幾年中,運行提示詞的能源使用量和環境影響已大幅下降。

但是在訓練和運行模型的基礎設施建設仍然面臨著巨大的競爭壓力。Google、Meta、微軟和亞馬遜等公司都投入了數十億美元建設新數據中心,這對電網和環境產生了非常重大的影響,甚至有人談論建設新核電站。

這種基礎設施是必要的嗎?DeepSeek v3 的 600 萬美元訓練費用和大模型價格的持續下跌可能暗示它不是必要的。

合成訓練數據效果很好

現在流行一種說法,隨著互聯網充斥著人工智能生成的垃圾,模型本身將會退化,以自己的輸出為食,最終導致其不可避免的消亡。

但這顯然不會發生。相反,我們看到人工智能實驗室越來越多地使用合成內容進行訓練——故意創建人工數據來幫助引導他們的模型朝著正確的方向發展。合成數據作為預訓練的重要組成部分正變得越來越普遍。

另一種常用技巧是使用較大的模型來幫助為較小、更便宜的替代方案創建訓練數據——越來越多的實驗室使用這種方法。DeepSeek v3 使用了 DeepSeek-R1 創建的「推理」數據。

精心設計用於 LLM 的訓練數據似乎是創建這些模型的全部。從網絡上抓取完整數據並隨意將其投入訓練運行的日子已經一去不複返了。

大模型越來越難使用

我一直在強調的一個觀點是,LLM是面向高級用戶的工具。它們看起來很簡單——向聊天機器人輸入消息能有多難呢?——但實際上,要充分利用它們並避免它們的種種陷阱,你需要擁有深厚的理解力和經驗。

如果說有什麼問題變得更糟,那就是在2024年,這個問題變得更加嚴重了。

我們已經構建了可以用人類語言進行對話的計算機系統,它們可以回答你的問題,並且通常能夠回答正確!……但這要看問題的類型,提問的方式,以及問題是否準確地體現在那些未公開的、秘密的訓練數據集中。

預設的LLM聊天界面就像是把完全沒有電腦經驗的新用戶丟進Linux終端,讓他們自己摸索著去弄明白。與此同時,終端用戶對這些工具的理解模型也越來越不準確,且充滿誤解。

很多信息更全面的人已經完全放棄了LLM,因為他們看不出任何人能從如此多缺陷的工具中獲益。想要從LLM中獲得最大價值的關鍵技能,就是學會如何使用那些既不可靠又極為強大的技術。掌握這一技能顯然並不容易。

知識分佈極其不均 

現在大多數人都聽說過ChatGPT,然而有多少人聽說過Claude呢?那些積極關注這些技術的人與99%不關心的人之間的知識差距巨大。

變化的速度也並沒有幫助緩解這個問題。僅在過去一個月裡,我們就見證了直播接口的普及,你可以用手機攝像頭對準某個物體,用語音與它對話……。大多數自認為是極客的人甚至還沒嘗試過這個功能。

考慮到這項技術對社會的持續(以及潛在)影響,我認為這種差距的大小是不健康的。我希望能有更多的努力投入到改善這一點上。

LLM需要更好的批評

很多人對大模型技術感到極度反感。在一些公開論壇上,僅僅提出「LLM是有用的」這個觀點,就足以引發一場大爭論。

有很多理由讓人不喜歡這項技術——環境影響、訓練數據的(缺乏)倫理性、可靠性不足、負面應用,以及對人們工作可能產生的負面影響。

LLM絕對值得批評。我們需要討論這些問題,尋找緩解方法,並幫助人們學習如何負責任地使用這些工具,使其正面應用超過負面影響。

本文來自微信公眾號「硬AI」