大模型裝進口袋:手機本地運行9倍速秒出高清圖,質量比肩頂級模型

在自動駕駛技術的演進過程中,實時生成高保真圖像的能力已經成為構建虛擬訓練環境的核心突破點。
比如,通過模擬暴雨中的道路塌陷、暴雪天突發交通事故等極端場景,讓自動駕駛系統在虛擬世界中積累應對突髮狀況的經驗,從而提升實際道路行駛的安全性。
儘管生成式 AI 技術為這一領域展現出巨大潛力,但現有的一些主流模型在實際應用中仍存在短板。例如,擴散模型雖然能夠生成細節驚人的逼真圖像,但它的處理速度較慢且計算成本高昂,這種特性使得其在需要實時響應的車載系統中可能難以落地應用。
與之形成對比的是,類似於驅動 ChatGPT 的自回歸模型,在處理速度上有顯著優勢,但所生成的圖像質量往往不盡如人意,容易導致圖像結構紊亂,特別是在處理複雜光影和精細紋理時,經常出現車輛零件錯位、交通標誌扭曲等「幻覺」現象。
近期,來自麻省理工學院和英偉達的研究人員開發出一種新方法,這款名為 HART(Hybrid Autoregressive Transformer)的新工具巧妙地結合了這兩種模型的優點:首先,它利用自回歸模型迅速捕捉到圖像的整體框架,然後通過一個較小的擴散模型來精細調整圖像細節。
實驗數據顯示,這種結合兩種模型優勢的 HART 不僅能夠達到甚至超越當前頂尖擴散模型的圖像質量,而且效率提高了 9 倍之多。
與傳統的擴散模型相比,HART 的運行更加高效,減少了所需的計算資源,這意味著它可以在筆記本電腦或智能手機這樣的本地設備上直接運行。
操作過程也十分簡單,用戶只需簡單地在 HART 界面上輸入一條自然語言指令,就可以輕鬆生成高質量的圖像。
正如這篇研究論文的共同第一作者、麻省理工學院 Haotian Tang 博士所說的那樣,「想像你在畫一幅風景畫,如果直接一次塗滿整個畫布,效果可能並不會好;但若是先勾勒出大致輪廓先勾勒出大致輪廓,然後再用小筆觸精修逐步完善,最終的作品會顯得更加精緻。」而這,也是 HART 創作背後的基本理念。
研究人員表示,HART 有著非常廣泛的應用前景,比如,可以幫助機器人學習如何完成複雜的現實世界任務,亦或是輔助設計師為電子遊戲打造栩栩如生的遊戲場景。
這項新研究是由來自麻省理工學院、清華大學和英偉達的一支多學科研究團隊共同完成的,其中包括 Haotian Tang 博士和清華大學的本科生 Yecheng Wu(兩位是論文的共同第一作者)、麻省理工學院電子工程與計算機科學系副教授韓鬆等。
他們的這項研究成果即將在國際學習表徵會議(ICLR)上展示。這項研究工作得到了 MIT-IBM Watson AI 實驗室、MIT 和 Amazon 科學中心、MIT AI 硬件項目以及美國國家科學基金會的部分資助。此外,研究中用於訓練該模型的 GPU 基礎設施由英偉達捐贈。

取兩者之所長
在生成式 AI 領域,以 Stable Diffusion 和 DALL-E 為代表的擴散模型憑藉其卓越的圖像生成質量,已成為當前計算機視覺領域的重要技術。
這些模型通過模擬物理擴散過程的反向推導,擁有精密的多步迭代去噪機制,即通過一種「迭代過程」生成圖像。在這個過程中,模型會預測並消除圖像中每個像素上的隨機噪聲。這個「去噪」過程需要多次重覆進行,直到最終生成一張完全無噪點的新圖像。
由於擴散模型在每一步都需要對整個圖像的所有像素進行處理,並且可能需要 30 步甚至更多的步驟才能完成這一過程,因此這種方法既耗時又耗費大量計算資源。
然而,恰恰正是這種多次的「修正」機會使得最終生成的圖像具有非常高的質量。
相比之下,自回歸模型通常被用於文本預測,但也能用來生成圖像,其方式是逐個區域地預測圖像內容,每次只處理幾個像素。
雖然這種方法不允許模型「回頭」修正之前的錯誤,但由於其順序性的特點,它生成圖像的速度要比擴散模型快得多。
這類模型依賴於所謂的「標記」,即一種表示形式來進行預測。自回歸模型使用自動編碼器將原始圖像的像素信息壓縮成離散的標記,並基於這些標記來重建圖像。
儘管這提高了模型的運行速度,但在壓縮過程中不可避免的信息丟失會導致生成圖像時出現錯誤。

HART 方法的獨特之處在於,研究人員巧妙結合了自回歸模型的速度優勢與擴散模型的精細細節捕捉能力。
首先,它利用自回歸模型快速預測出壓縮後的離散圖像標記;然後,再應用一個小規模的擴散模型來預測那些未被捕獲的賸餘標記,以此彌補信息丟失帶來的不足。
「通過這種方式,我們在圖像重建的質量方面取得了顯著進步。賸餘標記能夠學習到高頻細節,比如物體邊緣、人物頭髮、眼睛或嘴巴等部位,這些都是離散標記容易出現錯誤的地方。」Haotian Tang 解釋說。
由於擴散模型僅需在自回歸模型完成後對賸餘細節進行預測,它只需要 8 步就能完成任務,遠少於傳統擴散模型所需的 30 步甚至更多步驟。
此外,這種額外的「小負擔」擴散模型的應用,不僅讓 HART 保留了自回歸模型的速度優勢,還顯著地增強了其生成複雜圖像細節的能力。
這種方法的創新性在於它有效地平衡了速度與質量之間的矛盾,「如此一來,擴散模型的任務變得簡單了許多,這就帶來了更高的效率。」他補充道。

超越強大模型
在開發 HART 的過程中,研究人員面臨了如何有效地將擴散模型與自回歸模型結合以提升圖像生成質量的挑戰。
他們的初期嘗試表明,在自回歸過程的早期階段引入擴散模型會導致錯誤累積,影響最終圖像的質量。
為瞭解決這一問題,他們設計了一種策略,即僅在最後一步應用擴散模型來預測賸餘標記,這不僅有效減少了錯誤積累,還顯著提升了生成圖像的整體質量。
這種新方法結合了一個擁有 7 億參數的自回歸變換模型和一個具有 3700 萬參數的小型擴散模型。
儘管這兩個組件的總參數量遠小於某些頂級擴散模型(比如那些擁有 20 億參數的擴散模型),但它們協作生成的圖像質量卻毫不遜色,同時處理速度提高了大約 9 倍。
此外,對比最先進的同類技術,這種方法所需的計算資源減少了大約 31%,大幅降低了運行成本和能耗。
由於 HART 主要依靠自回歸模型(即驅動大語言模型的同類模型)完成大部分工作,因此它特別適合與新一代視覺-語言生成模型集成使用。
這意味著未來用戶可以通過與這些智能系統互動,例如要求展示組裝一件傢俱的具體步驟,從而獲得更加直觀、詳細的指導。
「大語言模型可以作為各種類型模型之間的一個非常好的接口,比如多模態模型或推理模型,這是推動智能化向新領域發展的關鍵,高效的圖像生成模型將解鎖更多可能性。」Haotian Tang 表示。
展望未來,研究人員希望沿著這條路線繼續深入探索,並基於 HART 架構進一步開發視覺-語言模型。
除此之外,鑒於 HART 具有良好的可擴展性和跨模式應用潛力,他們還打算將其應用於更廣泛的領域,如影片生成和音頻預測任務。
這樣的拓展不僅能夠豐富 HART 的應用場景,還有望為多媒體內容創作、虛擬現實等前沿技術的發展提供支持。
原文鏈接:
https://news.mit.edu/2025/ai-tool-generates-high-quality-images-faster-0321
