浙大開源「最懂Excel的GPT」,首次將結構化數據作為獨立模態訓練,刷榜提升40百分點
大模型理解複雜表格,能力再次飛昇了!
不僅能在不規則表格中精準找到相關信息,還能直接進行計算。
比如提問:
如果2022年出口總額的人民幣計價比實際數值少了10%,請計算新的出口總額並與實際數據比較。
普通的大模型要麼找不到正確的單元格信息,要麼會計算錯誤。
而最新模型給出了正確回答:
實際出口總額為121324327.3663萬元,減少10%後的出口總額為109191894.62967001萬元。
這就是由LeCun高徒、浙江大學博導趙俊博領銜打造的TableGPT2。
它首次將結構化數據作為獨立模態進行訓練,這意味著大模型將不再依賴長上下文窗口,而是直接理解數據庫、Excel、數倉中的數據,進而搞掂SQL、分析、增刪改查等相關任務。
要知道,結構化數據已是無處不在,從BI(商業智能)到當下爆火的具身智能,大模型想要被更充分精準應用於這些領域,就不能再單純以「文科生」的形式去學習。
由此趙俊博等人耗時1年帶來了更強大的TableGPT2。
在23個基準測試中,TableGPT2都表現優異,平均性能提高35.20%(7B模型)和49.32%(72B模型)。
目前團隊已將兩個版本的模型、一個Agent工作流以及RealTabBench中的一個子集開源。
關鍵在表格編碼器
在TableGPT2之前,業界幾乎沒有人嘗試將結構化數據作為獨立模態。這主要有兩方面原因——
第一,數據庫中表格的空間關係存在特殊性。比如在圖像影片上任意交換像素或者詞的token,都會改變數據的本質,這說明兩種模態之間具備空間依賴關係。但是在數據庫的表格中,隨機交換2行或2列數據,表格本身並不會變化。目前我們缺乏工具和手段去應對結構化數據這種特點。
第二,結構化數據存在異質性。比如在CV領域,RGB是很客觀的表達,紅色就是紅色,藍色就是藍色,自然語言也是一樣。但是在結構化數據中,同樣一個表格字段下面的標記,在不同數據居里的意義可能截然不同。比如都是「1,2,3」,不同圖表中表示的內容可能完全不同。所以這種「異質性」要求大模型對整體的庫、表和字段都有理解,才能給出實際意義。這部分的對齊和傳統LLM對齊不太一樣。
不過這些問題也不是完全不能解決。
趙俊博介紹,針對錶格數據,如果掩碼掉一個「子表」的一些單元格,加上字段、數據庫的信息輔助,是可以才出來掩碼信息的內容。這意味著儘管結構化數據的空間關係比較弱,但是本身還是有分佈可以去學習的。
由此,研究團隊提出了TableGPT2工作。
它基於Qwen2.5系列模型,使用超過860億token進行預訓練,給大模型喂入了超過59.38萬張表和236萬高質量的查詢-表-輸出樣本,並創新性加入了一個表格編碼器,專門用於讀取和解釋表格數據。
模型主要框架包括以下幾個部分:
- 表格編碼器
- LLM解碼器
- 持續預訓練
- 監督微調
- Agent工作流
表格編碼器支持輸入整個表格,生成每列的緊湊嵌入。
採用雙維注意力機制,無需位置嵌入,同時進行分層特徵提取,確保行和列的關係被有效捕捉。
再使用列對比方法,鼓勵模型學習有意義的、結構感知的語義表示。
具體實現上,通過Q-former樣式適配器對齊嵌入和文本輸入,引入可學習的查詢。
使用特殊標記(如」 「和」 「)區分表格特徵與文本,這樣模型可以同時處理兩種模態。
應用聯合指令微調來增強文本信息、列嵌入和模式單元數據之間的對齊,提高模型對錶格數據的理解和解釋能力。
值得一提的是,這個表格編碼器可以單獨使用。作者團隊透露,後續還將發表相關論文。
LLM解碼器則基於Qwen-2.5模型,用於自然語言生成。
具體訓練部分,預訓練階段首先針對模型的編碼和推理能力進行加強。80%的預訓練數據是有優質註釋的代碼,這和DeepSeek-v2的方法一致,以確保強大的編碼能力。
同時還融入了大量推理數據和特定領域知識(比如金融、製造、生物等),以增強推理能力。
在數據處理層面,採用兩級過濾策略。
文檔層面將數據標記為54個不同類別,token層面利用RHO-1來微調高質量token。
預訓練部分的數據由86B個token組成。
進行監督式微調主要是為了提高模型在BI特定任務中的表現。
作者構建了一個包含236萬條樣本的數據集,主要覆蓋多輪對話、複雜推理、工具使用和高度特定的業務查詢場景,包含代碼生成、數據可視化、統計測試和預測建模等表格任務。
通過模糊化字段引用、匿名化字段名等方法增強模型在處理複雜任務時的魯棒性。
最後來看Agent框架。
該框架由運行時prompt、代碼沙箱和agent評估模塊共同增強agent的能力和可靠性。
具體工作流如下。首先通過prompt模塊處理輸入查詢,經過檢索增強處理後將查詢輸入到主模型中。然後TableGPT2與VLM協作,生成工具調用、代碼或其他相關操作。利用智能體的反思能力,觀察中間結果,判斷是否需要迭代。最終得到輸出。
部分基準下超越GPT-4o
實驗階段,作者將TableGPT2與其他大模型進行性能對比。
對比對象主要分為兩類。
第一類為主流開源大模型,包括DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct和Qwen2.5-7B-Instruct。
第二類為針對錶格相關任務進行微調或專門開發的模型。包括TableLLMs和CodeLlama-13B。
實驗主要評估模型的6方面任務:表格理解、問答、事實論證、表格到文本、自然語言到SQL、整體評估。
在不同benchmark上,各個模型表現如下。TableGPT2顯著優於絕大部分其他模型,並在一些基準上超越GPT-4o。
結果顯示,TableGPT2的7B模型和72B模型的平均準確率分別提高了35.20%和49.32%。
此外,考慮到當下benchmark中針對錶格異形問題、匿名問題或者治理較差的情況兼顧不佳,而實際落地中90%以上case都會出現類似情況。
作者還構建了一個新的benchmark—— RealTabBench。它更加關注實際應用中真實出現的問題。
結果顯示在RealTabBench上,TableGPT2表現也是最好。
另外,TableGPT2不會導致基座模型通用能力下降。
LeCun高徒「砸鍋賣鐵」開發
該研究來自浙江大學計算機與科學技術學院計算創新研究所。
由助理教授、博士生導師趙俊博領銜。
趙俊博於2019年獲得紐約大學計算機專業博士學位,師從圖靈獎得主、Meta首席AI科學家、紐約大學教授Yann LeCun。
他曾在Meta(原Facebook)人工智能實驗室(Facebook AI Research)任研究員,期間深度參與了深度學習主流框架PyTorch和向量數據庫Faiss的開發,並曾參與了內部通用對話機器人項目的前沿研究,該工作被視為大模型方向的早期產品化工作之一。
曾於2015年供職於英偉達半年時間,聯合主持開發了全球首個端到端的自動駕駛解決方案,該工作由英偉達創始人Jensen Huang在次年的GTC 大會上做隆重介紹。
截至目前論文總被引數已超過20000次。
去年,趙俊博主持研發了TableGPT。
這是全球首款對接關係數據庫和數據倉的大模型產品。
2024年,團隊又繼續「砸鍋賣鐵」,給TableGPT升級了V2版本。
作為高校團隊,開發一個大模型意味著算力上要砸錢、數據收集工程優化上要出人,這中間有非常多的坑,需要消耗巨大人力財力。
而且TableGPT2的開發還有著諸多難點。
首先在技術上,構建一個在table上單獨模態的編碼器很難弄。它獨有的複雜結構和空間特點,以及字段語義信息對齊等,都有考驗。
其次在數據方面。結構化數據怎麼收集、清洗?標籤體系怎麼定製?如何把合成數據和人工數據合併?怎麼做到成本可控,都是問題。
以及監督微調部分,不光需要輸入輸出樣本對,而且需要收集表,專業領域的數據表還需要專業人士進行標註……
不過為什麼還是要做呢?
因為他們看到了大模型理解結構化數據背後更廣闊的應用前景。
趙俊博向量子位介紹,作為高校團隊,他們現在的工作更多是為了「趟路」。
做結構化這件事,我們不會停留在Excel或者數據庫上面,下一步技術發展肯定是往硬件和具身智能領域上走。
靈巧手的觸覺信息,還有具身智能領域的視覺、聽覺等,廣義來說都屬於結構化數據,我們還想往這個方向再往前一步。
與此同時,TableGPT2也會在產業落地上試水,希望能給從業者提供更好用的底座模型。
目前,團隊已經開源了這項工作的多個成果,後續也會發佈表格編碼器的相關研究,感興趣的童鞋可以進一步瞭解~
[1]論文地址:https://arxiv.org/html/2411.02059v1
[2]一個可用agent的git倉庫: https://github.com/tablegpt/tablegpt-agent
[3]模型開源:https://huggingface.co/tablegpt/TableGPT2-7B
本文來自微信公眾號「量子位」,作者:明敏,36氪經授權發佈。