雲測數據賈宇航:行業大模型“iPhone時刻”未至,落地應用需分三步走
新浪科技訊 9月27日下午消息,近日,國內AI訓練數據頭部服務商——雲測數據宣佈發佈面向垂直行業大模型AI數據解決方案,為企業提供包括基礎數據集、數據定製化採集標註和標註平台工具等服務,提供從持續預訓練、任務微調、評測聯調測試到應用發佈的端到端高質量數據,為垂直行業大模型落地應用提供關鍵支撐。
在與新浪科技溝通中,雲測數據賈宇航表示,通用大模型到垂直行業大模型的落地主要會經曆三個階段,分別是持續訓練、微調以及行業聯評,只有當走完這些環節以後,面向垂直行業領域的大模型才能正式地在特定行業領域投入使用。
據介紹,目前雲測數據的該大模型數據解決的該方案,已經在電商、金融、保險等行業內進行落地應用。
垂直行業大模型落地應用,需分三步走
當前,大模型在各領域中百花齊放,但大模型產業化仍面臨諸多挑戰。其中,優質數據作為大模型發展最為核心的要素之一,如何獲取、使用垂直行業的高質量AI數據仍困擾著諸多企業。
據賈宇航介紹,此次雲測數據發佈的垂直行業大模型數據解決方案,憑藉雲測數據在數據採集方面的專業能力和豐富數據資源,可以高效獲取不同場景(如圖像、視頻、文本等)所需的大規模多樣化高價值數據,為企業大模型的訓練提供可靠的場景數據源。
賈宇航介紹指出,在從通用大模型走向垂直行業大模型的過程中,垂直行業大模型的運用落地需走過三個重要階段,分別是持續訓練、微調以及行業聯評。在持續性訓練階段,需要基於垂直行業數據,讓大模型去學習並瞭解垂直領域到底需要哪些數據;之後會進入微調階段,通過人為干預或特定標註等方式,讓大模型能夠以更加貼合具體場景需求的方式去生成內容;最後還需要通過行業聯評等方式,讓合格的模型通過,不合格的再去做一些更具體的微調。
據介紹,在面對微調任務領域,雲測數據提供的方案會根據大模型落地場景特點,提供包含QA-instruct、prompt等文本類任務項目和多模態大模型的相關能力支援。在完成微調後通過雲測數據垂直領域的人員和專家積累+評測體系等服務,幫助企業對各個垂直應用落地領域進行評估。並通過以集成數據底座為核心的數據標註平台,將難例數據回流完成清洗標註,為更有效率的模型調優做準備,並實現標註精準度最高可達99.99%的高質量交付。
大模型iPhone時刻未至,未來存在三種形態
伴隨著大模型技術的出現與快速普及,與大模型技術發展強相關的算力、算法、數據等服務需求也得以催生。與之相對應的, 國內眾多科技互聯網企業也紛紛推出了與之相對應的服務。
據賈宇航介紹,在大模型數據服務領域,雲測數據從2017年做數據服務開始,便長期以場景化數據服務為起點,在電商、汽車出行、家居、金融、智慧城市等領域進行深耕佈局。因此,在特定的行業領域,雲測數據擁有豐富的行業AI數據服務、技術能力積累。
目前,雲測垂直行業大模型數據服務方案,已經在電商、金融、保險等場景展開落地。賈宇航介紹指出,目前國內大模型行業發展剛開始起步,更多的企業佈局仍處於從0到1階段。因此,公司在面向大模型企業提供服務的同時,也會面向更多有大模型使用需求的非技術型企業提供服務。
此前,英偉達創始人黃仁勳曾將基於GPT3.5大模型的ChatGPT出現,定義為生成式AI技術發展的“iPhone時刻”。但在賈宇航看來,目前距離真正的大模型“iPhone時刻”到來,還有一段時間。
“大模型這一項技術,正逐漸被應用在很多的AI應用、研發的企業中。但其實真正的iPhone時刻更多的還是從交互邏輯上去講的,並不是從技術角度去講。”賈宇航表示。在他看來,大模型還遠遠沒有到自己的“iPhone時刻”。
在他看來,未來大模型可能會存在三個類別:第一類是圍繞用戶自身的終端大模型,更多是用來記錄用戶行為、喜好的,相當於一個用戶ID。第二類是特定垂直領域大模型,具備自己的專業知識和能力,會於用戶的ID去登錄並提供對應的服務。第三類是通用大模型,未來將成為類似操作系統一類的存在。(文猛)