上交團隊打造新型算法平台，實現關係表格學習和大語言模型高效協同

12月15日 17:07 新浪網 tech-auto-hilite

2022 年底，ChatGPT 的誕生，引發了全球科技界的狂歡。

它讓人感興趣的地方不只在於所具備的強大的認知能力，還包括新穎的收費方式，即按照 token 收費。（編者註：這裏的「token」通常是指文本處理中的基本單位。）

換言之，ChatGPT 按照用戶輸入和輸出的「字數」進行收費，費用約為「$0.002 per 1k tokens」，也就是每 1000 個 token 的費用是 0.002 美元。

圖丨按數據類型劃分的全球數據量和大語言模型 token 成本的趨勢（來源：arXiv）

圖丨按數據類型劃分的全球數據量和大語言模型 token 成本的趨勢（來源：arXiv）

對此，上海交通大學王錚副教授有一個直覺：如果全世界的數據都採用 ChatGPT 來處理，一定會產生巨大的開銷。

圖丨王錚（來源：王錚）

他和團隊經過簡單評估後發現，事實的確如此。

就以 2025 年為例，大語言模型的總體開銷可達 5000 萬億美金，約為美國 2023 年 GDP（27.37 萬億美元）的 214 倍。

此外，他們也發現，儘管關係數據庫佔據了全球數據管理系統 73% 的市場份額 [1]，但基於大語言模型的關係數據庫智能分析方面的工作，尚屬空白。

在此背景下，他們決定發起 rLLM（relationLLM）項目，打造一個能夠快速、經濟、高效地搭建關係表格學習和大語言模型協同的算法平台。

並且，也提出了首個關係表格學習算法 BRIDGE，在標準的表格分類任務上，其結果常常能優出傳統方法 2 至 3 倍。

近日，相關論文以《rLLM：使用大型語言模型進行關係表格學習》（rLLM: Relational Table Learning with LLMs）為題在預印本平台 arXiv 上發表 [1]。

圖丨相關論文（來源：arXiv）

圖丨相關論文（來源：arXiv）

據王錚介紹，雖然 rLLM 的第一個版本在 2024 年 8 月才正式發佈，但同年 2 月，第一個內部測試版本就已經出現，只是那時還缺少關於 rLLM 的用戶使用反饋。

為解決這一問題，王錚將該項目作為上海交通大學大三年級「IEEE 試點班」《信息內容理解》課程的「打榜」大作業，要求學生以分組的形式，每週在標準的數據集和任務上進行「PK」（精度、時間和開銷）。

通過該方法，該課題組收穫了很多 rLLM 的使用反饋，這為版本的後續改進提供了有效參考。

那麼，rLLM 這一平台的應用前景如何？

從功能上看，目前數據庫產品主要分為聯機事務處理和聯機分析處理兩種類型，前者主要負責基本的事務處理，例如對銀行交易進行記錄和查詢，後者主要負責數據的統計分析，例如生成銀行交易整體分析報告。

所以，聯機智能分析（OLIP，Online Intelligent Processing）一直比較缺乏。

王錚表示：「實際上，業界一直都想做 OLIP，只是效果不太理想，如今大語言模型的出現，給這個方向帶來了曙光。」

也就是說，rLLM 可以被認為是在 OLIP 領域的一次良好探索。據瞭解，目前該項目已獲得國內頭部科技公司的資助，正與後者的業務系統進行對接實驗。

另外，如果從宏觀上看，以關係數據庫為代表的數據行業，擁有較為成熟的萬億規模市場。

與此同時，大語言模型正掀起新一輪人工智能革命，潛在市場規模巨大，極有可能顛覆傳統人類社會底層經濟運行邏輯。

所以，假如 rLLM 和其他「數智協同」項目能為上述兩個領域搭建一座橋樑，將會帶來重大的科技與經濟意義。

這裏，需要說明的是，「數智協同」可以形象的被理解成 AI 時代的操作系統，不僅要調度各類 AI 模型，還要調度各類數據管理系統，這樣才能支撐起未來全球經濟生活的方方面面。

當下，中國擁有全球最豐富的「數智協同」場景。因此，在該研究的基礎上，該團隊接下來也計劃聯合學術界和企業界的合作夥伴，開發一系列相關的解決方案。

王錚指出，在計算機領域，有一個隱秘的「20 年週期定律」：如果一次技術浪潮能夠成功，那麼其將在第一個十年中經歷從萌芽到泡沫的過程，在第二個十年里經歷各類技術各自佔領市場的過程。

其中，比較有代表性的是大數據技術。從 2003 年Google「三駕馬車」誕生至今差不多有 20 年，各類大數據技術已經都發展成熟並獲得廣泛應用。

「而當下也正處於‘AI 的 20 年週期’。前十年從 2012 年圖靈獎獲得者傑佛瑞·辛頓（Geoffrey Hinton）和學生的深度學習算法 AlexNet 碾壓式的 ImageNet Cup 奪冠開始，後十年以 2022 年底 ChatGPT 的推出作為起點。」王錚表示。

從這個角度來看，未來十年會是各類 AI 技術的決勝階段。

「我很期待中國高校和科技公司能在該領域開創出一片天地。」王錚如是說。

參考資料：

1.https://db-engines.com/en/ranking_categories

2.Li W, Huang X, Zheng J, et al. rLLM: Relational table learning with LLMs.arXiv:2407.20157, 2024.https://doi.org/10.48550/arXiv.2407.20157

運營/排版：何晨龍