媲美GPT-4o的王炸模型,這家創業公司做出來了

「你好,我是阿奇。」

今年9月的外灘大會「未來客廳」展廳一度被堵得水洩不通,在一個叫作「阿奇」的AI陪伴機器人前,孩子們反反復複摩挲著展台的邊緣,嘴裡不斷喊著阿奇的名字。能讓孩子們如此流連忘返,是因為和阿奇的互動體驗十分流暢。

雖然是AI機器人,阿奇卻有著「高情商」,可以「看見」用戶,有著敏捷的反應速度,與其互動就如同和真人交流一樣簡單絲滑,在體驗上全面革新此前國內的AI應用產品。這背後,是其搭載著帶有音影片多模態能力的無界方舟大模型——ArkModel 2.0。

今年國慶前GPT-4o正式上線,其中的高級語音功能已經被外界期待了太久,不過目前,其仍舊只向Plus和Team用戶推出,免費用戶無法體驗。GPT-4o的Realtime API在國慶期間推出,但限制也非常明顯:無影片對話能力、成本過高(7 RMB/min)、不能定製音色、語音幻覺較多。

從體驗上來看,無界方舟大模型已經可以無差別實現GPT-4o的極低延遲AI音影片互動能力。除了可以看見用戶、帶有情緒地快速回覆用戶以外,我們還從無界方舟大模型上看到了一些GPT-4o尚不具備的能力,如:大模型可以驅動3D虛擬形象,也可以驅動硬件機器人的動作,在交互上有更多革新。

其背後的研發團隊到底是什麼來頭?無界方舟大模型又還有哪些驚喜?

01 創業僅一年,一出手就是王炸

36氪瞭解到,無界方舟大模型背後的研發團隊,是一家創業僅一年的新秀公司——無界方舟智能技術有限公司(以下簡稱「無界方舟」)。

創始人兼CEO曾曉東博士,是NLP自然語言處理領域的資深專家,在該領域有超過15年的算法研究與應用經驗,擔任多個A類機器學習、自然語言處理、人工智能領域會議/期刊評委與區域主席。其還曾任阿里巴巴第一代機器翻譯系統的核心算法科學家,也是螞蟻技術實驗室的聯合創始人。據瞭解,曾曉東博士早在2017年於螞蟻集團任職時就已當選《麻省理工科技評論》評選的MIT TR35,即「35歲以下科技創新35人」。值得一提的是,月之暗面創始人兼CEO楊植麟也在今年入選該名單。

無界方舟創始團隊成員,均來自於國內外知名大廠AI業務第一梯隊。技術團隊80%為NLP自然語言處理專業博士,在NLP自然語言處理、MT機器翻譯、IOT物聯網硬件等領域,有著多年豐富的從業經驗。產品與設計負責人為多年互聯網體驗戰略資深專家,曾獲得紅點獎、IF獎、環球金趨勢獎等多個國際頂尖獎項。

在眾多AI創業企業中,雖然無界方舟的創業年限僅一年多,但其已在多個方面自證實力,得到眾多頂級賽事和榜單的認可。

在今年WAIC期間,無界方舟在200多家全球頂級AI企業中,入選全球創新大賽決賽,並最終獲得全球第5名的優異成績。緊接著,無界方舟又入選了「2024胡潤未來之星潛力企業榜」200強。

那麼,究竟是怎樣的產品與技術實力,才能奪得這樣的市場認可度與關注度?

如大家在一些公開活動中所看到的,無界方舟大模型的產品應用效果已十分驚豔。

隨著無界方舟大模型更新至2.0版本,其也擁有了更強大的能力——實現了極低延遲+音影片多模態+情緒表達+多語言+驅動軟硬件等綜合能力。正如桌面機器人阿奇所演示的,它可以實時看見用戶,給看不清藥品說明書的老年人解讀服藥方法,陪伴處於口語發育期的孩子們暢聊。

從多個層面,無界方舟大模型都在讓AI智能體更像真人。

02 無界方舟大模型,讓AI互動更像真人

GPT-4o引發了端到端實時多模態的熱潮,國內外大模型廠商紛紛跟進。

但就現階段而言,各大廠還無法真正做到交互全面革新,如極低延時回覆、可隨時打斷對話、可「看見」用戶的影片互動、情緒表達等業內技術難題都尚未解決。這也意味著,現階段類GPT-4o的多模態大模型仍屬於半成品狀態,暫時均無法提供API或SDK對接服務。

一位業內人士告訴36氪,「大廠更致力於摘取通用模型能力中的低垂果實,如ASR語音識別、LLM語言模型、湯臣S語音合成等。但創業公司想有一席之地,必須有自研能力,要在垂直領域、垂直場景,實現通用模型的技術突破」。

如果說大廠做的是讓大模型的木桶沒有明顯的短板,那麼無界方舟在做的就是成為一塊長板,一塊被別人需要的「磚」。

我們在體驗了搭載無界方舟大模型的產品之後發現,其最大的優點是能夠真正實現音影片多模態互動、超低延遲反饋、情緒化個性化表達等多種能力。這也使其上手體驗極佳,無成本、無障礙,只要用戶能溝通,就可以絲滑對話,彷彿在面對真人交流。

為了更加清晰的體現無界方舟大模型在能力方面的長處,我們製作了一張圖表:

無界方舟大模型(ArkModel 2.0)是一個多模態端到端模型,能夠同時處理文本、音頻、圖像的數據,並實現跨模態任務的轉換。具體而言,模型接收不同形式的輸入,如音頻通過Audio Encoder編碼,圖像通過Image Encoder編碼,這些編碼後的信息在ArkModel中進行統一處理,模型通過下一個token預測生成輸出,因此可以實時地流式輸出文本或音頻。

模型的一個顯著特徵是其端到端優化設計,強調直接從輸入到輸出的全流程學習。其中合成數據是優化過程中的關鍵,主要用於生成大規模的訓練數據,包括從圖片或語音生成文字和語音、從語音生成文本等多種類型的數據增強。這種方式有效提升了模型的泛化能力和任務適應性。

無界方舟大模型在多項多模態評測中,均超越GPT-4o等業界知名模型:

如圖表所示,無界方舟大模型具備以下5點顯著優勢:(以下影片均為實拍,無任何後期剪輯)

•優勢1:

實現300毫秒超低延遲反饋,該成績不止是純語音,更是在音影片互動的情況下。在目前國內市場的橫向對比中,幾乎沒有對手;

優勢2:

可實現音影片多模態互動,可以「看見」用戶,可隨時打斷,且具備推理能力;

優勢3:

有豐富的情緒系統,互動自然,去AI感,非常適合陪伴場景;

優勢4:

有多語言能力,目前可實現21種語言,包含葡語、日語、阿拉伯語、粵語等;

優勢5:

可以驅動虛擬形象和實體硬件的動作,實現具身智能的效果。

03 瞄準AI陪伴領域,無界方舟大模型已對外開放合作

2013年上映的科幻電影《HER》曾將人類與人工智能相愛的故事搬上銀幕,這個在當時看來略顯瘋狂的念頭,因為大模型的出現,幾乎已經快要在現實中實現。

今年8月,GPT-4o語音功能首度亮相之時,就有人驚呼GPT版的《HER》來了,首批試用的用戶興奮地體驗發現,其可以實現真人對話般極低延遲、可隨時打斷、情緒豐富的實時交互。但在那之後,市場便進入了短暫的沉寂。

一位行業專家認為:「只要類GPT-4o的技術沒有達到人人可用的狀態,市場離真正意義上的爆發就還很遙遠。」

曾曉東博士曾受邀在今年的外灘大會上分享AI Agent的商業化落地探索,通過那些可以深層次理解用戶需求的個性化智能體,AI可以實現真正意義上的走入千家萬戶。

而在用戶眼中,它可以是一個智能音箱、一個會說話的潮玩娃娃、一個可以和兒童親近互動的玩具狗,或是一個車載陪伴機器人。

這便是無界方舟希望實現的豐富場景,目前無界方舟大模型已能夠對齊GPT-4o的交互能力,且進一步開發出自身的獨特優勢,例如:在保持極低延遲音影片交互的同時,還可實時驅動虛擬形象和實體硬件的動作行為。這意味著,該模型能力對於具身智能、虛擬數字人或IP形象的場景應用將更為友好和極致。

據36氪瞭解,無界方舟大模型現已對外開放合作,且目前是業內唯一一家對外提供音影片互動大模型的企業。主要應用場景聚焦在教育互動、智能玩偶、車企陪伴、具身智能、文旅展示等,針對兒童、銀髮族、學生白領等用戶群體都有著不同的解決方案。

如在時下十分熱門的教育陪伴領域,AI與教育的結合,可改變傳統的教育模式。據36氪此前瞭解,多家教育企業均在探索與AI的結合。例如,通過AI模擬線下真實授課體驗,做超擬人 1 對 1 的 AI 老師。這類探索的優點在於,它不僅是輔助學習,更是通過互動引導,讓學生更高效地交流和吸收知識。再比如,兒童的早教產品目前集中於故事機,但除了講故事、讀繪本外,早教機更需要提供一問一答的互動方式,做到絲滑無延遲,讓兒童在語言系統發育的關鍵時期,培養口語表達能力。因此,該類產品對於音影片互動的要求極高,無界方舟大模型可以完美適配。

另外一大熱門應用品類則是智能玩具。基於上一代AI技術的產品,通常存在交互複雜(如每次對話需要按壓按鈕)、反饋延遲高等問題,無法實現自然對話,導致用戶使用時長低、留存差。因此,在智能玩具市場中,兒童玩具、IP潮玩、明星周邊、數字人盒子、虛擬寵物等產品,都可以和無界方舟大模型有很好的結合。

此外,車企陪伴、具身智能機器人、文旅/企業展示等場景,均可通過應用無界方舟大模型,來實現實時音影片互動,全面革新使用者的交互體驗,從而帶來業務的增長。

04 AI的盡頭是AI Agent?

儘管多家大模型廠商曾在年初表態,認為今年是中國AI應用的爆發元年,但實際上,受限於模型性能,AI應用進入了瓶頸期,即便是在北美市場,資本也正在思考投資AI的性價比。

光大證券研究指出,AI Agent是打破AI應用發展瓶頸的關鍵,新的ScalingLaw,RL+CoT對於實現能自主規劃的AI Agent至關重要。

無界方舟團隊則是堅定的AI Agent追隨者,深耕AI Agent技術與產品。其也由此走出了兩條路線,一條是走垂直領域(生物製藥)專業路線的企業級AI Agent,一條則是走陪伴路線的個人AI Agent。

如何真正降低人類使用AI的門檻,通往AGI路上的最核心基礎到底是什麼?華泰證券出具的報告認為,GPT-4o已初步具備Agent能力,而AI Agent才是通往AGI的核心基礎,能真正革新人機交互方式。實際上,Agent也是大模型邊際變化的最大能力。

或許每一個衝進人工智能領域的創業者,都有著一個用AI改變世界的理想。但所有理想都必須走向落地,才能真正不辜負理想,既要仰望星空,也要腳踏實地。

這也正是無界方舟團隊的特別之處,他們因理想從大廠出來,走出舒適區,進入一個競爭激烈,但又充滿可能性的賽道。曾曉東博士的終極夢想是在生命科學、人類事業上有所建樹。「他想用他擅長的AI的方式,來為人類事業做些貢獻,所以當這波AI熱潮出現後,他毅然決然地出來創業了。」曾曉東博士的一位合作夥伴對36氪表示。眼下,大模型賽道的角逐已經行至深水區,唯有真正的價值創造者才能走到終局。

本文來自微信公眾號「36氪」,36氪經授權發佈。