楊植麟揭秘Kimi預訓練策略:提升Token efficiency,實現長文本

新浪科技訊 1月10日晚間消息,清華大學北京重點實驗室、智譜AI發起的AGI-Next前沿峰會上,月之暗面Kimi創始人、CEO楊植麟公開分享了Kimi預訓練遵循的兩大策略:第一,提升Token Efficiency;第二,實現長上下文(Long context)。

楊植麟指出,Transformer的架構優勢體現在長上下文場景中。實驗表明,當上下文長度增加到1000個token時,代表Transformer的性能表現會顯著下降到LSTM之下,顯示出卓越的性能。這揭示了架構在不同上下文長度下的優勢差異,是一個至關重要的指標。尤其在當前的Agentic(代理智能)時代,因為許多Agent任務要求極長的上下文來完成高度複雜的指令,因此一個擁有更低positional loss(位置損失)的架構,意味著它在執行Agent任務時具備更強的技術潛力。

基於此,楊植麟指出,月之暗面的預訓練策略,乃至整個模型的設計策略,均是圍繞提升token efficiency和實現long context展開。

為什麼要關注Token efficiency,本質上是因為Agent的推理或訓練是搜索過程,比如你想從零開發一個Linux,本質上是搜索問題,如果你有無限的數據,可以把所有可能的情況枚舉遍,選出好的操作系統方案。但你讓AI開發Linux,這個過程中並不需要枚舉每一種可能的Token組合情況,因為很多組合是沒有意義或錯誤的,更好的預訓練和基礎模型是減少了搜索空間,提升了更好的先驗。

楊植麟還進一步指出,除了架構、更好的數據等挑戰,做AI模型研究很重要的是要有更多的Taste——即品位和審美。“我覺得模型是一個很不一樣的東西,做模型的過程本質是在創造一種世界觀,你覺得什麼樣的東西是好的,一個好的AI應該是有什麼樣的,應該追求什麼樣的價值觀,有點像喬布斯講的(Taste)。”楊植麟表示。

楊植麟指出,智能和很多別的東西不一樣,每個模型產生的Token,本身不是一個可交換的東西,如果今天看很多事情是相同的,是等價交換,但智能並不是這樣的。“一個CEO產生的智能,和一個設計師產生的智能是不同的,因此在智能維度,你有非常多的Taste的空間,空間是指數增加,會有更多新的Taste出來。”楊植麟表示。(文猛)