2%訓練數據追平Google ScreenAI 國內首個UI大模型是如何煉成的?

隨著大模型加速應用落地,提高模型訓練效率成為更受關注的議題。在10 月 18 日召開的 2024 QCon 大會上,Motiff 妙多 AI 負責人趙薇分享了國內首個 UI 大模型的開發經曆。趙薇介紹,相比於常見的“大力出奇蹟”做法,Motiff 妙多選擇了“四兩撥千斤”。憑藉高質量的專業數據和個性化的模型架構,Motiff 妙多大模型在效果和能力上超越了 GPT-4o 和Apple的 Ferret UI,並追平了訓練數據多 40 倍的 Google ScreenAI 大模型。

(Motiff 妙多 AI 負責人趙薇 QCon 演講現場)

Motiff 妙多大模型在數據、模型架構和訓練方法上進行了多次創新。UI 領域的訓練數據比通用領域少一個量級,Motiff 妙多通過提高知識密度、生成合成數據,構建了一批優質 UI 數據,並根據 UI 領域需求個性化調整模型架構。這些調整使得 Motiff 妙多大模型適配 UI 領域特點,具備“支援輸入高清”、“保持圖片長寬比”和“精準定位”三大優勢。

“基於自研大模型,我們能以較低成本快速孵化 AI 應用。”趙薇表示,自研大模型加持下,Motiff 妙多開創了 AI 複製、 AI 設計系統等功能,AI 生成 UI 功能也迅速躋身行業前列。Motiff 妙多大模型不失為一個典型的樣本:當通用大模型在專業領域“失靈”時,AI 應用企業如何通過自研領域大模型助力應用創新?

大模型對齊訓練“少即是多”,數據質量是關鍵

當前,通用大模型在處理複雜任務和理解多種數據方面表現出色,但在特定領域依然存在明顯的局限性。例如,GPT-4 在 UI 領域錯誤率超過 70%,理解和生成用戶界面表現不佳。作為 AI 時代設計工具,Motiff 妙多需要構建一個“UI知識體系完整”和“UI技能豐富”的專業大模型。

構建大模型的首要問題是數據。為克服UI 領域高質量圖片數據量較小、數據任務不夠豐富的挑戰,Motiff 妙多通過增加知識密度和加入基於專家模型生成的合成數據,構建了一批高質量、具有專業知識的 UI 數據。

“數據量少並不是問題,高密度才是關鍵。”趙薇表示,在領域遷移中,不用海量的 UI 領域對齊數據,依然可以實現有效對齊。

如何提高信息密度?Motiff 妙多對 UI 數據進行了多維度的內容分析和層次結構描述。對每張UI圖片,Motiff 妙多從佈局、組件、功能、視覺效果和設計風格等多維度深入分析,並增加了 UI 特有的結構和定位知識。在隨機采樣的 1 萬條數據中,每張圖片的描述 token 數量從 20 增長到 628,信息密度提升了 30.4 倍。

在生成合成數據過程中,Motiff 妙多引入了多個專家模型,將大量的專家知識提煉到合成數據中。以圖標描述數據的合成為例,在整合人類專家知識後,Motiff 妙多的數據更加細粒度且情境相關。比如,針對“愛心”圖標,Google 的 ScreenAI 大模型只能描述圖標類別,而 Motiff 妙多大模型能夠生成具體的功能描述,如“收藏按鈕”。

通過長期積累的專家模型,為合成數據注入大量專業知識)

豐富多樣、接近真實世界的數據使得訓練出的模型具備解決複雜問題的能力。在五個行業公認的 UI 能力基準測試集中,Motiff 妙多大模型的各項指標均超過了 GPT-4o 和Apple的 Ferret UI,多項指標追平Google的 ScreenAI ,並在 Screen2Words(界面描述與推斷)和 Widget Captioning(部件描述)兩大指標上超越了 ScreenAI 。要知道,ScreenAI 在訓練時用了近 4 億條訓練數據,相比之下,Motiff 妙多大模型所用的訓練數據不到其 2%。

強化領域模型優勢,快速孵化 AI 功能

在完成數據收集與構建後,便進入模型基座與訓練階段。多模態大模型在近年來快速發展,但大多缺乏對 UI 領域的特殊適配。趙薇指出,通用模型在 UI 領域容易出現文字識別幻覺和定位偏移,這讓Motiff 妙多團隊更加重視視覺編碼器和位置感知訓練。

通用視覺編碼器在處理高解像度和複雜佈局時有明顯的缺陷,容易導致信息丟失。因此,Motiff 妙多採用切圖策略,將高清圖片切成多張小圖送入模型,確保信息完整併提升細節敏感度。

(Motiff 妙多大模型架構)

Motiff 妙多通過保持長寬比和精準定位,進一步增強模型表現。通用大模型通常忽視了精準定位的能力,而 Motiff 妙多通過補充切割後小圖的位置信息,提升了模型的位置感知。

通過改進模型基座,Motiff 妙多大模型更適配 UI 領域任務,具備 “支援輸入高清”、“保持圖片長寬比”、“精準定位” 三大優勢,能更好地理解和處理 UI 設計中的複雜元素。

“基於大模型的 AI 應用有啟動成本低、算法建模簡單、任務更加複雜等特點。”趙薇說。以 Motiff 妙多大模型為底座,團隊迅速開創和升級了 AI 設計系統、AI 生成 UI 等功能。

以Motiff 妙多首創的 AI 設計系統功能為例,該功能能精確定位並理解設計稿中的所有設計組件。對於難以區分的組件(如button 和 tag),Motiff 妙多大模型都能準確識別,準確率提升至 95% 以上。

趙薇稱,Motiff 妙多計劃在未來持續迭代大模型技術。實踐證明,AI 在 UI 設計中的應用潛力巨大,Motiff 妙多將致力於 AI 與 UI 設計的深度融合,為設計師提供更高效、更智能的設計工具,推動 UI 設計行業變革。