OpenAI揭秘GPT-4.5訓練：10萬塊GPU，幾乎全員上陣，出現「災難性問題」

智東西4月13日消息，近日，在OpenAI史上最貴模型GPT-4.5發佈1個多月後，OpenAI聯合創始人兼CEO薩姆·阿爾特曼（Sam Altman）與GPT-4.5的3位核心技術人員進行了一場45分鐘的高信息量對談，首次披露了這款模型研發耗時嚴重超期、計算集群頻繁故障、提升路徑難以預測等諸多不為人知的細節。

GPT-4.5項目啟動於兩年前，是OpenAI迄今為止最周密的計劃，涉及數百人團隊協作，阿爾特曼稱OpenAI為了這一項目幾乎是「全員上陣」。

研發過程中，OpenAI團隊遇到了不少「災難性問題」。10萬卡集群暴露了基礎設施的隱藏的小概率、深層次故障，為了權衡時效與性能，OpenAI的系統團隊不得不「邊修邊訓」。其中，有一個隱藏的小bug讓集群頻繁報錯，直到訓練進度條走過約40%才被揪出。

不過，這也幫助OpenAI打造了更為強大的技術棧：如今可以僅用5-10人便複刻出GPT-4級別的大模型。GPT-4至GPT-4.5的性能提升約為10倍，獲得了「難以量化但全方位增強的智能」，這點讓OpenAI員工們都感到意外。

OpenAI團隊已經意識到，要實現下一個10倍乃至百倍的性能提升，算力已不是瓶頸，關鍵在於數據效率，即開發出能夠利用更多算力，從同樣數量的數據中學到更多知識的方法。

同時，系統正從單集群轉向多集群架構，未來的訓練可能涉及1000萬塊GPU規模的協作學習，其容錯能力需要進一步提升。

對談中，OpenAI員工們還分享了數據長尾效應與Scaling Law之間的關係、機器學習與系統團隊深度協同設計（co-design）模式的優勢、無監督學習的本質與「絕不放過任何異常」的問題排查文化，全方位展現了GPT-4.5研發期間的OpenAI的思考與收穫。

除了阿爾特曼之外，參與本次對談的3位OpenAI員工分別為Alex Paino（負責GPT-4.5的預訓練機器學習算法）、Amin Tootoonchian（OpenAI首席系統架構師）與Daniel Selsam（研究數據效率與算法）。

以下是阿爾特曼與OpenAI GPT-4.5團隊對談影片的完整編譯（為提高可讀性，智東西在不違背原意的前提下進行了一定的增刪修改）：

01.

GPT-4.5兩年前已啟動，

項目耗時遠超預期

Sam Altman：打造一個如此龐大的模型（GPT-4.5），究竟需要什麼呢？

Alex Paino：大約兩年前，我們開啟了這一項目。當時，OpenAI即將上線一個新的大型計算集群，我們團隊看到了這個機會，做了一系列工作來確定模型需要包含的功能，進行了大量降低風險的運行測試。

我們為此製定了一個很長的計劃，涉及從系統到機器學習的整個技術棧。為了降低風險和為訓練做準備是一個漫長的執行過程，而訓練本身也是一個非常大的工程。

Amin Tootoonchian：我認為這個過程從一開始，就需要機器學習團隊和系統團隊密切合作，直到我們明確了想要訓練什麼模型，然後開始訓練。

我們已經在機器學習和系統方面都做了預測，試圖儘量縮小預期和現實之間的差距。但由於我們的工作節奏很快，還要利用最新的計算資源，模型訓練就成了難以提前完美規劃的事情。

我們幾乎總是帶著許多未解決的問題開啟訓練，並試圖在運行過程中克服挑戰，取得進展。主要解法就是增加更多的計算資源。

最後階段是執行，這需要很多人長期投入大量精力和動力，才能完成訓練過程。

Sam Altman：你覺得我們的預期和現實的差距到底有多少？

Amin Tootoonchian：系統方面，在開始的時候，我們通常離預期的狀態很遠。我們總是面臨一個選擇：到底是推遲啟動，等待問題解決，還是提早啟動並在過程中解決問題。這總是需要權衡，要避免不合理地延遲進程。

但幾乎總是會遇到一些意想不到的問題，我們要做的就是儘可能地處理好這些節點，處理好未知因素，並為模型訓練製定計劃。

Alex Paino：在這個項目中，我們的目標是做出GPT-4.5，這意味著其能力要比GPT-4聰明10倍。這是我們大約2年前設定的初始目標。

這個過程中發生了很多事情，我們在思考到底能做得更好，還是會不如預期？這是一條非常複雜的過程，但最終，就我們投入的有效計算而言，我們得到了一個我們認為達到了比GPT-4聰明10倍的模型。

Amin Tootoonchian：在執行方面，GPT-4.5項目的耗時與我們一開始預計的相去甚遠。

02.

如今訓練GPT-4級別模型，

僅需5-10人即可完成

Sam Altman：集群在從1萬卡拓展到10萬卡的時候，為什麼遇到了這麼多問題？

Amin Tootoonchian：我認為，如果係統開發者足夠敏銳，大部分問題是能在小規模階段就觀察出來的。

還有些問題並不是大規模訓練階段獨有的，而是原本就經常出現，但規模提升後就會變成災難性問題，特別是當團隊並未提前預料到這些問題會惡化到如此程度。

Sam Altman：有哪些事情造成了災難性的後果？

Amin Tootoonchian：我認為基礎設施的問題是眾所周知的，無論是故障率、故障類型還是故障總量都很高。10萬卡集群是一個大規模的樣本池，因此我們也發現了算力供應商都沒有觀察到的問題。

網絡是其中一環，單個加速器也會出問題。不過這也是這種系統的美妙之處——幾乎所有組件都需要按預期工作，才能產生預期結果。我們的工作就是要儘量減少這種問題。

Sam Altman：在集群規模的極限上開展工作的確很睏難，但我也注意到，做那些不再是技術前沿的事情變得容易多了，訓練GPT-4.5需要數百人，OpenAI幾乎全員上陣。

但今天如果讓你們從OpenAI中挑選出一個最小的團隊，用我們所知道的一切知識和所有的系統工作從頭開始重新訓練GPT-4，需要多少人？

Alex Paino：我認為現在要做出GPT-4級別的模型，可能需要5到10人左右。在完成GPT-4.5的過程中，技術棧已經有了很大改進。

其實，在我們在訓練GPT-4.5的過程中已經做了類似的事情——我們訓練了GPT-4o，這是一個GPT-4級別的模型，使用了很多來自GPT-4.5研究項目的相同內容重新訓練。進行那次訓練所用的人要少得多。

03.

數據效率是大模型突破關鍵，

新一代硬件帶來諸多挑戰

Sam Altman：從你的角度來看呢，Dan？為什麼訓練大模型很難？

Daniel Selsam：我認為做任何新事物都很難。我認為即使只是發現別人做了某事，它也會變得容易得多，因為最難的部分是一開始就有做某事的信念。我覺得僅僅是知道某事是可行的，就是一個超強的作弊碼，讓事情變得容易許多。

Alex Paino：我們正在將GPT預訓練運行擴展到之前的10倍，總是會發現一些有趣的新東西，這些東西你不一定能預料到。

Sam Altman：在預訓練規模上實現下一個10倍或100倍的增長需要什麼？

Daniel Selsam：數據效率。Transformer架構（也就是GPT）在利用數據方面非常高效，它能很好地吸收和壓縮信息，並實現泛化。它最大的特點就是能用計算資源高效地吸收信息。

但是，它從數據中獲得洞察力的深度是有限的。當計算能力快速增長，而數據增長相對緩慢時，數據就會成為這種標準模式的瓶頸。這就需要算法創新，開發出能夠利用更多算力從同樣數量的數據中學到更多知識的方法。

Sam Altman：你們認為除此之外我們還需要什麼來保持擴展？

Amin Tootoonchian：我的答案是關於系統的。我認為GPT-4.5所需的巨大工作量，本質上是模型規格帶來的必然結果。我們無法用與GPT-4完全相同的技術架構來訓練GPT-4.5。

在狀態管理方面，由於所需計算資源已超出單集群承載能力，我們不得不轉向多集群訓練架構。為了實現這一目標，我們必須在短時間內整合多個不同的工作流。

雖然這確實幫助我們取得了階段性突破，但要實現下一個數量級的性能提升，仍需解決若干已知但被暫時擱置的技術難題——這些問題是無法迴避的。正是這類技術權衡不斷延長著完美系統的研發週期，我們始終在追求最優實施方案的過程中做出策略性取捨。

需要明確的是，系統本身並非終極目標，其實際產出價值才是核心考量。就下一個10倍性能提升而言，我認為容錯能力的突破至關重要。我們需要構建與工作負載深度協同的容錯機制，以顯著降低運維焦慮。當前超大規模系統的運維複雜度，與既往系統存在本質差異。

Sam Altman：你知道在GPT-4.5訓練中，由於某些組件導致失敗的比例是多少嗎？

Amin Tootoonchian：我沒有具體數字可供分享，但一般而言，在新一代硬件部署初期，系統運行往往面臨諸多未被充分認知的技術挑戰。我們選擇在問題尚未完全明確的情況下推進項目，這導致初期運行失敗率居高不下。

但經驗表明，隨著根本原因的識別和解決，故障率會顯著降低。這一現象本質上反映了我們對基礎設施認知的深化過程——有些人稱之為基礎設施的清理或理解基礎設施的基本問題。

執行的早期階段幾乎總是相當痛苦，我們在推進項目的同時，也在持續發現和解決新型故障模式，但最終失敗率會逐漸下降，正常運行的時間變多。

這本質上是個優先級權衡的問題：在基礎設施生命週期的早期階段，其故障風險往往難以準確預估；而如果過度追求終極理想狀態（原文為「City Estate」，理想城邦式設計），反而可能導致系統在初期階段的可用性表現極差。

04.

計算資源不再是主要瓶頸，

算法尚未觸及理論上限

Sam Altman：雖然推理模型是我們未來技術棧的關鍵組成部分，但讓我們暫時聚焦於傳統預訓練模型的發展邊界。假設我們擁有無限的GPU算力、無限的網絡帶寬和無限的電力供應，但仍受限於當前存在的技術瓶頸——包括系統可靠性問題、容錯訓練方法的缺失，以及現有數據集的限制。

按照我們每個主要GPT版本號實現100倍規模提升的演進規律，基於當前的技術邊界，預訓練模型的發展究竟能達到什麼水平？具體到GPT系列模型，以我們現有的知識體系，理論上究竟能夠訓練出什麼樣的模型？能做出GPT-5.5嗎？

Alex Paino：從機器學習和算法發展的角度來看，我們尚未觸及明確的理論上限。事實上，我們才剛剛開始探索數據效率更高的算法，以及如何更充分地利用現有數據資源。這個現狀非常有趣——即便是像GPT-4這樣的模型，很大程度上仍是在計算資源受限的條件下開發的，這也決定了此前大多數研究的方向。

但現在的局面已經完全不同。自GPT-4.5以來，在某些關鍵維度上，數據而非計算正成為主要的製約因素。這種轉變讓相關研究變得不那麼令人興奮。

Sam Altman：不過這確實是一個驚人的進展，而世界可能還沒完全意識到：在我們能夠構建的最佳模型上，計算資源已不再是主要瓶頸。這個轉變意味深長，畢竟我們已經在計算受限的環境中生活了太久太久。

05.

模型整體性能提升可預測，

智能提升路徑難以預測

Sam Altman：在訓練GPT-4.5過程中，我們學到的最有意思的機器學習經驗是什麼？說說你們想分享的就行。

Amin Tootoonchian：總的來說，最引人深思的是那些偏離我們預測的情況——特別是當我們試圖理解為什麼實際表現會偏離預期曲線時。

Alex Paino：最讓我們驚訝的發現之一是：不同機器學習組件的擴展性表現差異巨大。有些部分能很好地擴展，有些則不行。這是我們在實際訓練過程中才真正認識到的。這段經歷給了我們很多啟發。

Daniel Selsam：我認為GPT範式的兩大核心特徵在於：其一，測試損失（衡量模型在未見過的測試數據上表現好壞的指標）可被準確預測；其二，模型性能隨規模擴大呈現可預測的提升。更神奇的是，測試損失的降低會以種種難以量化卻又令人驚歎的神秘方式，轉化為全方位增強的智能水平。

Sam Altman：你是否對此持絕對樂觀態度？完全認同這一觀點嗎？

Daniel Selsam：其實我想說的是，從GPT-4.5測試中我們發現了特別有趣的現象——重新測試後，模型展現出的諸多精妙能力完全超出了所有人的預期。

我們確信它會以各種難以預先定義的方式變得更智能，而實際部署後，從用戶滿意度中就能觀察到這些微妙層面的提升：更強的常識儲備、更精準的語境理解能力、更細膩的語義把握——這正是那些額外測試損失帶來的魔力。在我看來，Scaling Law在這一維度上得到了完美驗證。

06.

機器學習與系統團隊合作密切，

不會「自掃門前雪」

Sam Altman：整個訓練過程中最積極的時刻是什麼？最喜歡的記憶是什麼？顯然有很多痛苦，但希望那些痛苦已經有所緩解了。

Alex Paino：我確實有一個這樣的時刻。我們在訓練期間做了很多機器學習方面的工作，我認為我們在運行過程中做出的一些改變產生了相當好的影響，可能比預期的還要好，這對我們來說是一個非常令人興奮的時刻。

Amin Tootoonchian：對我來說，在訓練的同時，我們也同時在構建基礎設施。我們堅信能越過這個性能懸崖，且我們有計劃，每個人都在執行，但這需要很長時間。這是艱苦的工作，絕對比我想像的要難。我的預測是錯的，我低估瞭解決這些問題需要的時間。

當團隊終於攻克了那些關鍵問題，性能得到顯著提升的那一刻，至今讓我記憶猶新。你能明顯感受到整個團隊的能量轉變——所有人突然充滿了幹勁，帶著全新的動力向最終目標衝刺。

最神奇的是，我們狀態跟蹤器上顯示的預計完成時間從最初的兩年開始不斷縮短，最終鎖定在一個明確的時間節點上。這種可見的進展對團隊士氣的提振是難以估量的。我認為這就是它的美妙之處。

我想特別強調的是，機器學習的工作從未停滯。即使在訓練啟動後，這種機器學習協同設計的過程仍在持續。機器學習團隊不僅主動跟進那些曾被標記為「後續處理」的問題，還持續交付了真正優化訓練時間的改進。

這完美體現了我們的團隊精神——這裏不存在「各人自掃門前雪」的工作界限，而是一種真正無縫的協作，這種凝聚力正是我們最強大的優勢。

07.

GPT-4.5預訓練是最周密的計劃，

絕不放過任何異常

Daniel Selsam：外界對於這次訓練本身的挑戰性和預測準確性已經討論很多。但事實上，這一切都建立在極其周密的規劃基礎上——你要不再詳細談談這方面？

Alex Paino：這絕對是我們迄今為止最周密的計劃。正如我所說，早在正式啟動訓練前一年，我們就已經開始籌備這個項目。期間我們進行了多次大規模的風險控制測試運行。

我們特別注重循序漸進地引入所有改進：從高置信度的基礎配置開始——可以理解為類似GPT-4的成熟架構，這個配置在機器學習層面我們已經完全掌握——然後像疊積木般層層疊加新特性。

關鍵是要嚴格驗證每個改進在不同規模下的擴展性：不僅要看到性能提升，更要確保這些提升能隨著模型規模擴大而持續有效。很多改進在小規模測試時表現良好，但在大規模應用中就會失效。

因此整個過程中我們都保持著高度警惕，不斷迭代完善我們的擴展定律方法論。通過這次風險控制實踐，我們積累了大量寶貴經驗，這些經驗將繼續指導未來GPT系列模型的開發。

Amin Tootoonchian：我記得有個特別有趣的瞬間讓我很是懷念。要知道我們每次啟動訓練任務幾乎都免不了遇到各種bug，這已經是家常便飯了。但關鍵是要確保進展不受阻，得時刻確認當前進度是否確實在正軌上，這些bug會不會對訓練健康度造成致命影響。

雖然我們最初非常確信存在重大缺陷，但通過搭建的整套監控體系，我們已經能夠精準區分問題根源：是硬件故障？哪類硬件故障？是數據損壞？還是機器學習模型本身的bug？或者是代碼中的競態條件？

當時的情況是，我們同時開著多個問題討論區，各種症狀五花八門。經過一系列bug修復後，我們陷入了僵局：眼前堆疊著多個未解問題，所有人都在苦思冥想——這些是不同bug導致的？還是某一個bug在作祟？

後來我們搞了個投票，讓團隊成員票選最可能的根源。結果最不被看好的選項反而命中真相：竟然是PyTorch上遊的torch.sum函數出了問題，一個簡單的求和運算。

這個bug特別有意思。要知道我們主要使用Triton內核，只有在某些無關緊要的邊緣場景才會回退到torch運算。而我們的特定代碼路徑觸發的這個torch.sum函數bug，會因數據分佈特性極偶然地引發非法內存訪問——它在計算內存偏移量時出了差錯。

最戲劇性的是，當某位工程師終於定位到問題並提交修復後，所有症狀各異的報錯竟然全部消失了。大家興奮地把Slack頻道從「多bug理論」集體改名為「單bug理論」，場面特別歡樂。

這個bug潛伏了多久呢？從訓練早期就存在，直到進度條走過約40%才被揪出來。發現過程也充滿戲劇性：當時有個複雜內核連續調用序列，第二個調用觸發了非法內存訪問。

雖然這種崩潰頻率極低（每幾百甚至上千步訓練才出現一次），很容易被當作偶發故障忽略，但我們的團隊準則就是：絕不放過任何異常。這個故事最精彩的部分就在於這種不輕言放棄的堅持。

08.

我們離理想系統還很遠

Sam Altman：GPT-4.5預訓練啟動後，大家還要做哪些工作？

Alex Paino：我們所有人都需要經常觀察損失曲線。除此之外，還要持續優化系統，改進在訓練啟動前未能完成的協同設計（co-design）。我們密切監控訓練過程中的各類統計指標，確保沒有出現預期外的異常趨勢。同時從機器學習角度探索可能的改進方案。雖然預訓練啟動後數據層面的工作會暫時減少，但仍有大量任務需要處理。

Amin Tootoonchian：我認為機器學習很大程度上依賴於正確性判斷。預訓練啟動後，面對大量噪聲信號，我們就像解讀茶葉渣的佔卜師，需要判斷系統是否健康，這就是我們的職責所在。

Sam Altman：在系統層面，什麼會限制我們進行模型訓練？是芯片、處理器、內存、網絡還是電源？

Amin Tootoonchian：系統的美妙之處在於，在進行協同設計時，工作負載可以適應你構建的基礎設施。這裏沒有普遍的說法說網絡是瓶頸，或者內存帶寬是瓶頸之類的。即使是對於同一規格的模型，我們可以選擇轉移資源需求，我們可以選擇創建一個更加平衡的系統，但擁有更多的內存帶寬總是有益的。在沒有限定條件的情況下很難回答這一問題。

在設計GPT-4.5時，我們可能系統方面要具備某種屬性，這種屬性要經過人的引導才能產生。所以協同設計對形成模型架構和架構元素很重要，某種程度上將系統和機器學習方面聯繫在一起。如果係統有一種我們不太希望擁有的屬性。我理想的情況是，一切都應該是解耦的，以給彼此最大的空間。

有時候事情會聯繫在一起，我們需要滿足基礎設施的要求，或者說事情本應如此。很多時候，我們需要一個平衡的系統、平衡的通信。而我們擁有的最好的調節手段就是所有這些協同設計。

Sam Altman：我們距離這樣理想的系統目標還有多遠？

Amin Tootoonchian：離那個目標還很遠。構建系統的過程總是這樣的：先有一個關於事物應該如何運作的理想化觀點，然後用現有資源去調和那些差異。

我認為我們並不是為了理論而理論，只是為了討論我們希望它變成什麼樣子，讓它實現，並儘可能地接近那個理想。這可能是系統領域中最令人興奮的部分。以前人們會說這是一個優雅的系統設計，而最終歷史會告訴我們這個選擇是正確還是錯誤的。

Sam Altman：如果能在下次大型訓練前獲得一個機器學習問題的答案，你們最想知道什麼？

Alex Paino：我想知道在有限數據和特定領域下，我們應該採用哪些算法。這雖然是個寬泛的問題，但確實是最關鍵的。

Sam Altman：今後會進行1000萬塊GPU或更大的同步預訓練嗎？

Alex Paino：我認為會有，但未必是傳統預訓練模式，它的形式可能與現有技術截然不同，但仍會保留無監督學習的內核。

Amin Tootoonchian：我傾向於半同步模式。受物理規律限制，完全同步不太現實。

Daniel Selsam：我認為這更可能是去中心化的。肯定會有1000萬塊GPU共同工作在一個學習和執行任務的AI系統上，但像大腦的各個部分一樣，彼此並不一定會相互交流。

09.

算法改進產生疊加效應，

推動數據效率提高

Sam Altman：當前最先進的算法和人類的數據效率相差多少？未來有望追趕上嗎？

Daniel Selsam：兩者很難直接比較。語言學習層面上的差距肯定是巨大的，關鍵在於如何定義人類視覺神經接收的信息量。我認為總體上算法的數據效率比人類低許多。

幾十年來，深度學習一直關注算力效率。除了數據和算力的增長，真正讓人驚喜的是算法改進產生的疊加效應。算法性能每次提高10%或20%，疊加在數據效率上就會有顯著效果。到目前為止，還沒有圍繞數據效率進行這樣的動員，因為在數據不流通且計算能力受限時，這一做法並不值得。

現在，我們正在進入AI研究的新階段，我們將開始積累數據效率的勝利。我認為，現在就預測我們會遇到無法踰越的障礙是有些愚蠢的。人類大腦的運行方式肯定與我們算法改進不同，在這方面我們要保持謹慎。但我認為要對算法未來發展保持樂觀。

Sam Altman：更大規模的預訓練與模型更強的學習推理能力之間有什麼相關性嗎？

Alex Paino：我們觀察到的是，更好的預訓練和無監督學習往往會提升模型的整體智能，並在泛化方面有很大幫助，這與推理能力是相輔相成的，而推理在提高智能方面可能會更遲鈍一些。我認為它們是互補的關係。

Sam Altman：預訓練似乎在很多事情上能夠通用，而訓練一個模型只能讓它在某一類事情上做得很好，是這樣嗎？

Alex Paino：這點很有趣，不過當你看到訓練它們的數據時，就不會對這種情況驚訝了。預訓練的數據集範圍非常大，我們追求的是廣度和多樣性。而當談到模型強化學習並讓它可以清晰地獲得良好獎勵信號和良好的訓練環境時，我認為很難兼顧數據集的廣度。

Daniel Selsam：我同意，但我認為還有一個因素，預訓練本質上是在壓縮數據，從而發現不同事物之間的聯繫。它關乎類比，更加抽像。推理是在特定問題上需要謹慎思考的一種技能，也能夠獲得許多類型問題的解決方法。但在預訓練過程中，在跨越不同領域進行數據壓縮時，可以學到更抽像層面的知識。

10.

智能的本質是壓縮，

數據長尾效應讓Scaling Law持續有效

Sam Altman：無監督學習為什麼有效呢？

Daniel Selsam：關鍵是壓縮。理想的智能形態是所羅門諾夫歸納（Solomonov induction），一般而言，機器學習會考慮所有的可能性，但傾向從更簡單的程序開始檢驗。

當前預訓練的本質正是一個壓縮的過程，通過找到一個最簡程序來解釋人類迄今為止產生的所有數據，以此實現近似表達。

Sam Altman：下一個Token預測如何協助實現壓縮？

Daniel Selsam：統計學里有一個悖論——為什麼深度網絡看似無法壓縮卻能實現泛化？正常來講，當擁有大量數據和一些小模型時，這些模型一定要經歷壓縮才學到了東西。

在預訓練中，數據和模型的規模都很大，有些人就認為這種訓練只是記憶和插值學習，其實他們忽視了壓縮的另一種理解視角——序貫壓縮（pre-quential compression），它像一個壓縮器，即使數據權重很大，二進製也無需存儲這些信息，利用下一個Token預測的結果可以快速檢索出有用信息，提高壓縮效率。

Sam Altman：訓練GPT-4.5的過程耗費了大量人力、時間和金錢，這其實可以看做是一次驗證Scaling Law的實驗，而結果證明它是有效的，並且還會持續很長時間。Scaling Law為什麼可以被稱之為宇宙規律？

Daniel Selsam：壓縮程度越高，智能就越強大，這具有很深刻的哲學內涵。為什麼訓練更大的模型時間越長，壓縮率就越高？這涉及到很多理論，其中我喜歡的是稀疏表示（Sparse Representations）。

現實中的關鍵概念遵循冪律分佈（power law），比如第100個重要概念可能在每100個文檔里才出現一次，存在明顯的長尾效應。這種分佈特性導致需要大規模數據和算力來有效捕捉所有關鍵概念，也決定了Scaling Law長期有效存在。

編輯 | Panken