反轉,Claude 3.5超大杯沒有訓練失敗
傳聞反轉了,Claude 3.5 Opus沒有訓練失敗。
只是Anthropic訓練好了,暗中壓住不公開。
semianalysis分析師爆料,Claude 3.5超大杯被藏起來,只用於內部數據合成以及強化學習獎勵建模。
Claude 3.5 Sonnet就是由此訓練而來的。
使用這種方法,推理成本沒有明顯提升,但是模型性能更好了。
這麼好用的模型,為什麼不發佈?
不划算。
semianalysis分析,相較於直接發佈,Anthropic更傾向於用最好的模型來做內部訓練,發佈Claude 3.5 Sonnet就夠了。
這多少有些讓人不敢相信。
但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架構的人。
除此之外,文章還分析了最新發佈的o1 Pro、神秘Orion的架構以及這些先進模型中蘊藏的新規律。
比如它還指出,搜索是Scaling的另一維度,o1沒有利用這個維度,但是o1 Pro用了。
網民:它暗示了o1和o1 Pro之間的區別,這也是之前沒有被披露過的。
新舊範式交迭,大模型還在加速
總體來看,semianalysis的最新文章分析了當前大模型開發在算力、數據、算法上面臨的挑戰與現狀。
核心觀點簡單粗暴,總結就是:新範式還在不斷湧現,AI進程沒有減速。
文章開篇即點明,Scaling law依舊有效。
儘管有諸多聲音認為,隨著新模型在基準測試上的提升不夠明顯、現有訓練數據幾乎用盡,以及摩亞定律放緩,大模型的Scaling Law要失效了。
但是頂尖AI實驗室、計算公司還在加速建設數據中心,並在底層硬件上砸了更多錢。
比如AWS斥巨資自研Trainium2芯片,花費65億美元為Anthropic準備40萬塊芯片。
Meta也計劃在2026年建成耗電功率200萬千瓦的數據中心。
很明顯,最能深刻影響AI進程的人們,依舊相信Scaling Law。
為什麼呢?
因為新範式在不斷形成,並且有效。這使得AI開發還在繼續加速。
首先,在底層計算硬件上,摩亞定律的確在放緩,但是英偉達正在引領新的計算定律。
8年時間,英偉達的AI芯片計算性能已經提升了1000倍。
同時,通過芯片內部和芯片之間的並行計算,以及構建更大規模的高帶寬網絡域,可以使得芯片更好地在網絡集群內協同工作,特別是在推理方面。
其次,在數據方面也出現了新的範式。
已有公開數據消耗殆盡後,合成數據提供了新的解決途徑。
比如用GPT-4合成數據訓練其他模型是很多實驗團隊都在使用的技術方案。
而且模型越好,合成數據質量就越高。
也就是在這裏,Claude 3.5 Opus不發佈的內幕被曝光了。
它承擔了為Claude 3.5 Sonnet合成訓練數據、替代人類反饋的工作。
事實證明,合成數據越多,模型就越好。更好的模型能提供更好的合成數據,也能提供更好的偏好反饋,這能推動人類開發出更好的模型。
具體來看,semianalysisi還舉了更多使用綜合數據的例子。
包括拒絕采樣、模式判斷、長上下文數據集幾種情況。
比如Meta將Python代碼翻譯成PHP,並通過語法解析和執行來確保數據質量,將這些額外的數據輸入SFT數據集,這也解釋了為何缺少公共的PHP代碼。
比如Meta還使用Llama 3作為拒絕采樣器,判斷偽代碼,並給代碼進行評級。一些時候,拒絕抽樣和模式判斷一起使用。這種方式的成本更低,不過很難實現完全自動化。
在所有拒絕抽樣方法中,「判官」模型越好,得到的數據集質量就越高。
這種模式Meta在今年剛剛開始用,而OpenAI、Anthropic已經用了一兩年。
在長上下文方面,人類很難提供高質量的註釋,AI處理就成為一種更有效的方法。
然後在RLHF方面,專門收集大量的偏好數據難且貴。
對於Llama 3,DPO(直接偏好優化)比PPO(最近策略優化)更有效且穩定,使用的計算也少。但是使用DPO就意味著偏好數據集是非常關鍵的。
OpenAI等大型公司想到的一種辦法是從用戶側收集,有時ChatGPT會給出2個回答並要求用戶選出更喜歡的一個,因此免費收集了很多反饋。
還有一種新的範式是讓AI替人類進行反饋——RLAIF。
它主要分為兩個階段。第一階段,模型先根據人類編寫的標準對自己的輸出進行修改,然後創建出一個包含「修訂-提示對」的數據集,再使用這些數據集通過SFT進行微調。
第二階段類似於RLHF,但是這一步完全沒有人類偏好數據。
這種方法最值得關注的一點是,它可以在許多不同的領域得到擴展。
最後,值得重點關注的一個新範式是通過搜索來擴展推理計算。
文章中表明,搜索是擴展的另一個維度。OpenAI o1沒有利用這個維度,但是o1 Pro用了。
o1在測試時階段不評估多條推理路徑,也不進行任何搜索。
Self-Consistency / Majority Vote就是一種搜索方法。在這種方法中,只需在模型中多次運行提示詞,產生多個響應,根據給定的樣本數量,從響應中選出出現頻率最高的作為正確答案。
除此之外,文章還進一步分析了為什麼說OpenAI的Orion訓練失敗也是不準確的。
感興趣的讀者可以閱讀原文。
本文來自微信公眾號:量子位,作者:明敏