提速 128 倍:蘋果發佈 FS-DFM 模型,AI 長文寫作不再等待

IT之家 10 月 14 日消息,科技媒體 9to5Mac 今天(10 月 14 日)發佈博文,報導稱蘋果提出 FS-DFM 擴散模型,僅需 8 輪快速迭代,即可生成與傳統模型上千輪迭代質量相媲美的文本,且寫入速度比同類模型最多可提高 128 倍。

蘋果公司與俄亥俄州立大學的研究團隊近期聯合發表論文,提出一種名為「少步離散流匹配」(Few-Step Discrete Flow-Matching,簡稱 FS-DFM)的新型語言模型。

該模型專注於解決長文本生成領域的效率瓶頸,僅需 8 輪快速精練,就能生成高質量的長篇文本,其效果足以媲美傳統擴散模型執行上千步迭代所實現的效果。

在深入瞭解 FS-DFM 之前,需要區分兩種主流的語言模型範式:

  • 以 ChatGPT 為代表的自回歸模型,其工作方式是逐字(Token)串行生成文本,後一個字的生成依賴於前面所有內容。

  • 擴散模型則採用並行策略,一次性生成多個字,再通過多輪迭代逐步優化,直至形成完整的回應。

FS-DFM 作為擴散模型的一個變體,進一步簡化了迭代過程,旨在用最少的步驟直接生成最終結果。IT之家援引博文介紹,蘋果研究人員為實現這一突破,設計了一套精妙的三步法:

  • 首先,模型經過專門訓練,能夠靈活適應不同的精煉迭代次數。

  • 其次,團隊引入一個「教師」模型進行引導,確保模型在每輪迭代中都能進行大幅且精準的更新,同時避免出現「矯枉過正」的問題。

  • 最後,他們還優化了迭代機制本身,讓模型能以更少、更穩健的步驟生成最終文本。

在性能評估中,FS-DFM 還支持對比了擁有 70 億參數的 Dream 模型和 80 億參數的 LLaDA 模型。測試結果顯示,即使是參數量僅為 1.7 億至 17 億的 FS-DFM 變體,在困惑度(衡量文本準確與流暢性的指標,越低越好)和熵(衡量模型選詞置信度的指標。熵太低,生成的文本可能單調重覆;熵太高,則可能胡言亂語)兩項關鍵數據上,都表現出更低的困惑度和更穩定的熵。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。