星環科技創始人孫元浩:大模型在特定領域只是本科生,有3個限制

·“向量數據庫就是大語言模型的海馬體(存放記憶)。它的基本功能是把非結構化的數據轉成高維向量,然後提供進一步的搜索。”

星環科技創始人、CEO孫元浩。

“當我們用大模型在行業中落地的時候,很快就發現了一個挑戰——大模型雖然在理解人類自然語言、歸納生成文本圖像上有驚人的表現,但它無法理解行業術語,也不能執行行業的特定任務,更無法針對行業做分析、推理和決策。”5月26日,星環科技(688031.SH)創始人、CEO孫元浩在上海舉行的向星力·未來數據技術峰會(FDTC)上談到,“在特定領域中,大模型還不能像一個專家一樣,它目前只相當於一個本科生或本科低年級的水平,只能作為一個實習生,專業知識庫以及行業深度知識的缺乏,讓它沒辦法解決特定行業的業務問題。”

為何如此?孫元浩認為其原因是,不管是通用模型還是微調後的行業大模型,目前都面臨3個限制:

第一,訓練需要時間,而且時間比較長,可能會有半年或一年。但在訓練後,資訊、實時新聞、市場行情等快速變化的信息無法內置到模型中,需要一個外部的機制和存儲去存放實時信息。

第二,不管是通用還是行業大模型,輸入都有限制,這個限制取決於它的算力和工程化難度。所以一般來說,大模型的輸入都有token(字符)的設置,GPT-3的限制是4096個token(標識符),相當於大概1024個漢字;GPT-4是大概24000多個漢字,32000多個token。也就意味著,如果要把一個上市公司的年報全部放進去,可能就超過這個限制,不能進行分析。所以,需要一個外掛存儲來存放這些輸入的信息。

第三,因為大模型有時精準度不夠,出現“幻覺”,所以需要一個知識庫來校正結果,需要一個機制來補充大模型,讓它能夠給出準確的答案和更實時的信息。

向量數據庫就是大語言模型的海馬體

“向量數據庫(vector databases)承擔了中間存儲的角色。”孫元浩認為,向量數據庫就是大語言模型的海馬體(存放記憶)。它的基本功能是把非結構化的數據轉成高維向量,然後提供進一步的搜索。

伴隨著AI大模型的應用需求提升,向量數據庫也成為最近的投資熱點。在今年3月的英偉達GTC大會上,黃仁勳首次提及向量數據庫,並強調對於構建專有大型語言模型的組織而言,向量數據庫至關重要。

據東北證券研報介紹,向量數據庫是專門用來存儲和查詢向量的數據庫,其存儲的向量來自於對文本、語音、圖像、視頻等的向量化,它的一個很重要的功能是拓展大模型的時間邊界和空間邊界。擴展時間邊界指,向量數據庫能夠使大模型擁有“長期記憶”。空間邊界指,向量數據庫能夠協助解決目前企業最擔憂的大模型泄露隱私問題。

“大語言模型興起之後,以其為基礎呈現了成千上萬種應用,那麼就需要一個高可擴展的向量數據庫來存放更多信息,同時要能夠提供高速檢索。因為大語言模型本身受限於算力,它的計算邏輯是一直預測下一個單詞,所以算力需求比較大,速度會變慢,要提供毫秒級的響應,才能跟得上響應速度。”孫元浩說。

向量數據庫的工作原理可以理解為:第一,把最新的信息、經常變化的信息(如產品信息、市場行情信息、供應鏈信息)、以及個人相關信息(如分析習慣,如對一隻股票的分析步驟、看哪些基本面等)幾類信息放進向量數據庫;第二,放數據的過程中,通過嵌入(embedding,將一個內容實體映射為低維向量,從而可以獲得內容之間的相似度)把它變成一個高維向量(向量為幾百維到幾千維,現在通常是1536維)。

最後,當提問或與大模型對話時,先把這個問題轉成高維向量,進行語義搜索,找到相關的信息,然後再把它拚接成提示詞發給大語言模型,最後語言模型生成答案。

讓大模型變成行業專家

利用向量數據庫和圖數據庫(可以高效地存儲和查詢節點之間的關係和屬性,應用在社交網絡、知識圖譜等場景),即可構建特定領域大模型的應用。

孫元浩在現場演示,“這個是我們目前用的70億參數的開源大模型,我們問它中糧集團今年的玉米收儲價是多少?它不知道。我們再問它,新希望生產豬飼料的主要合作上下遊企業有哪些?它也只是泛泛地回答,沒有行業知識。我們用農業知識圖譜等補充以後,它可以立刻告訴你最新的收儲價是3元人民幣,以及這個價格的影響。另外,它也直接回答了豬飼料主要的供應商是正大集團。”

通過這樣一個工具,就可以解決大模型的幾個大問題:第一,把實時的知識、變化的知識放到大模型中。第二,校正結果的準確性,極大提升精度,即使不經過微調,也可以利用工具去構建這樣的知識圖譜,增強大模型的能力。

在未來數據技術峰會上,星環科技也推出了這一工具。據孫元浩介紹,這一工具的前端可以組織成智能客服的顯示,也可以是API(應用程序編程接口)的顯示。中間層提供知識圖譜的構建工具,提供樣本倉庫、向量數據庫和圖數據庫。末端即金融行業大模型“無涯”,以及可作為數據查詢和分析的智能助手的“求索”大模型。

在現場演示中,“無涯”可以“回答”金融量化領域的各類問題,例如政策和研報分析、新聞解讀、輿情分析等,能夠對個股、債券、基金、商品等各類市場事件進行複盤和推演。

“求索”大模型則作為數據查詢和分析的智能助手,為數據工程師、數據科學及業務人員提供服務,希望讓非專業用戶在不需要學習和掌握數據庫編程語言的前提下,就可以通過自然語言按需查詢數據。

星環科技成立於2013年,2022年10月在科創板掛牌上市,大數據平台和分佈式數據庫是其核心產品。

“未來在每一個領域,如金融、政府、能源、交通等,我認為都需要誕生很多領域或行業的大模型,它們具有專家的能力,能夠在上面構造複雜的應用。”孫元浩說。