上海人工智能實驗室發佈書生·天際LandMark三維實景

·全球首個千億參數的NeRF三維實景大模型書生·天際LandMark可支持多項城市編輯功能。在演示中,武康大樓能夠通過NeRF技術根據不同時段變換風格與光影效果;中華文化宮能夠進行整體的旋轉或不同分層的旋轉。

·上海人工智能實驗室首發書生通用大模型體系,包含多模態、浦語、天際3個基座模型,同時推出了首個面向大模型研發與應用的全鏈條開源體系。

7月6日,在2023世界人工智能大會(WAIC)科學前沿全體會議上,深度學習與計算機專家、上海人工智能實驗室教授、香港中文大學教授林達華,發佈了書生·天際LandMark三維實景大模型,並對其技術原理和功能應用進行了介紹。

林達華表示,書生·天際LandMark是全球首個千億參數的NeRF三維實景大模型,由上海人工智能實驗室、香港中文大學和上海市測繪院共同研發,能夠將NeRF(Neural Radiance Fields,神經輻射場)光場建模的能力從物體級別拓展到城市級別。林達華表示,書生·天際LandMark的發佈是對大模型的創新應用,“為未來我們實現城市級的AIGC(人工智能生成內容)提供了技術上的可能性。”

會上還首次發佈了“書生通用大模型體系”(以下簡稱“書生大模型”),包括書生·多模態、書生·浦語和書生·天際等三大基礎模型,以及首個面向大模型研發與應用的全鏈條開源體系。

書生通用大模型體繫在2023世界人工智能大會上發佈。

從一顆蘋果到整座城市

“大模型除了生成文字,還能給我們一個更加充滿想像的世界。”林達華表示,書生·天際LandMark利用NeRF技術,為大模型技術的應用提供了更多的可能性。

NeRF是一項新型三維光場建模技術,在2020年3月由Google研究團隊首次提出,最初被應用於三維建模,且僅限於小型物體(一顆蘋果大小)級別。“但我們認為NeRF技術不止於此。”林達華說 ,“我們的團隊在2021年12月10日首次提出把NeRF光場建模的能力從一個小蘋果的物體級別拓展到城市級別。這是全球首次將NeRF技術的能力從物體拓展到城市。他表示,在他們的研究團隊提出城市級NeRF一段時間後,美國卡耐基梅隆大學(Carnegie Mellon University)和Google才陸續發佈各自的城市級NeRF技術。

林達華團隊在2021年12月10日首次提出把NeRF光場建模的能力從一個小蘋果的物體級別拓展到城市級別。

“基於城市級NeRF這個核心技術,我們不斷地去提升其擴展性和能力。”林達華介紹,書生·天際LandMark三維實景大模型基於研究團隊的第二代的CT NeRF技術和算法,支持對全範圍的高精度實時渲染,包含2000億參數,覆蓋100平方公里,實景中的每一個細節都支持4K高清解像度。

實景三維是對一定範圍內人類生產、生活和生態空間進行真實、立體、時序化反映和表達的數字空間。據介紹,書生·天際LandMark集算法、算子、計算系統為一體,在模型層面提出一種新的實景三維模型表徵和訓練範式,在高效訓練的同時,可以準確表徵大規模三維城市場景,並且達到高質量的神經渲染效果。其在高精度建模、高精度渲染、功能可擴展性、訓練交互一體化四個方面取得領先。

書生·天際LandMark還可支持城市級編輯、風格化轉換等功能。在演示中,武康大樓能夠通過NeRF技術根據不同時段變換風格與光影效果;中華文化宮能夠進行整體的旋轉或不同分層的旋轉。“這就為未來我們城市級的AIGC提供了一個技術上的可能性。”林達華說。

中華文化宮的各個部分可實現“旋轉”。

林達華表示,“希望通過新的三維實景生成技術,為我們未來的城市空間注入全新的想像力和創新空間。未來,上海AI實驗室將對書生·天際的建模範圍和功能進行擴展,並對書生·天際的算法、算子和系統全部進行開源。 ”

首發書生通用大模型體系

會上,林達華還介紹了書生通用大模型體系,包含多模態、浦語、天際3個基座模型,同時推出了首個面向大模型研發與應用的全鏈條開源體系。其中多模態大模型有200億參數,支持350萬種語義的標籤,在80+項任務世界領先;浦語大模型則是國內首個正式發佈的千億參數支持多語種的大模型。

“書生·浦語在全部維度上都超越了LLaMA-7B(Meta AI的FAIR團隊開發的人工智能語言模型)。”林達華稱,書生·浦語作為具有千億參數的大模型,在各個維度上都超越了國內現有最好的開源模型。

今年6月7日,上海AI實驗室與商湯科技聯合香港中文大學、複旦大學和上海交通大學發佈了“書生·浦語”大型語言模型。該模型參數量達到1040億,是當前千億級參數的大語言模型之一,基於一個包含1.6萬億Token的多語種高質量數據集進行訓練。

據介紹,自6月正式亮相後,書生·浦語在一個月內進行全面升級,具體包括五個方面。第一,語境窗口的長度從2K提升到8K,這使其具備了理解長輸入、展開複雜推理、以及進行長時間多輪對話的能力;第二,多語種和結構化表達能力進一步加強,新版模型支持20多種語言,還可通過表格和圖表等方式彙總與呈現複雜信息;第三,多維度能力全面提升,在42個主流評測集上性能明顯提升,在其中35個評測集上性能超越了ChatGPT;第四,數理邏輯能力明顯進步,大幅提高了數值計算、函數運算、方程求解等數理能力,在數學評測集GSM8K上性能從62.9提高到73.2,在2023年高考數學選擇題上,正確率提升超過70%;第五,安全與對齊能力顯著增強,通過更有效的指令微調,包括基於人類反饋的強化學習(RLHF),新版模型可以更可靠地遵循人類指令,安全性也得到明顯改善。

“所有大模型最終的價值依歸,依舊是為生活和生產創造價值。上海人工智能實驗室不僅通過創新實現技術突破,還致力於推動這些技術在具體行業落地。”林達華在會上說。

林達華表示,除了大模型本身,團隊還同時開源了全鏈條的工具體系,涵蓋了大模型開發過程中的數據、預訓練、微調、部署和評測五大主要環節,“通過開源工具體系,可以讓模型價值得到充分發揮。我相信開源能夠真正地幫助到開發者們在大模型的基礎上進行研發、創新。”

據介紹,正式開源的版本為一個70億參數的輕量級InternLM-7B,在包含40個評測集的全維度評測中展現出卓越且平衡的性能,全面領先現有開源模型。