實時音影片領域拓荒者的十年

誰能抓住這波實時對話式AI的機遇?

作者丨張   進

編輯丨陳彩嫻

2015 年,聲網將WebRTC大會引入中國,籌辦了第一屆面向國內開發者、業務人員和用戶的RTC(實時視音頻)大會。在大會開始的前夕,現任聲網市場VP、RTC大會主策人彭小歡失眠了,她非常擔心明天會不會有人來。

一晃十年過去了,當年的RTC大會早已升級為RTE(實時互聯網)大會, 10 月 25 日RTE 2024也如期而至,但早已不用擔心是否有人光顧,現場可謂是座無虛席。

圖:RTE2024開幕當天的現場圖:RTE2024開幕當天的現場

國內大模型領域的「大模型六虎」,其中的智譜、MiniMax、零一萬物團隊都出現在2024年RTE大會上,在ChatGPT發佈後的近兩年時間里,智譜和MiniMax分別在 tob和 toc兩條路線上越走越深,有許多心得可以分享,通義千問團隊也帶著國內最大開發者生態的經驗在RTE大會上加入討論。

此次RTE大會也不乏AI大牛創業者的身影,例如全球最受矚目的AI科學家之一,一年前從阿里巴巴離職、躬身入局大模型Infra的賈揚清也出現在RTE大會的主論壇上,分享了他在AI Infra領域創業 18個月後的經驗心得以及對RTE+AI的趨勢判斷。

除此,Google、螞蟻、面壁智能、生數科技、商湯、曠視、WPS、Soul等也在大會上分享了團隊過去一年里在ChatGPT時代的AI探索。

今年的RTE大會,可謂是大咖雲集,AI 內容拉滿。

迄今,RTE大會已經是第十屆,十年如一日地每年堅持舉辦,從未間隔。恰逢GenAI爆發,聲網深耕的RTC(實時音影片)技術,讓人與AI的交互不再局限於文字,也可以通過語音通話進行生動、流暢的低延時交互,這也成為當下國內外大模型廠商新的發力點——多模態。

而今年的RTE大會便提供了一個交流平台,憑藉在業界的影響力,吸引各行各業專家參與,使得業內一起共同探索RTE+AI的未來潛力,這也將給RTE和聲網帶來更多機遇與挑戰。

當年,聲網CEO趙斌期待「通過RTC這樣的大會讓開發者使用實時音影片功能像使用水一樣簡單」,十年後,實時音影片功能成功在各行各業應用,絲滑地融入大眾的工作生活中。在此十年之期,也是聲網創辦的十週年,RTE開始與GenAI結合。

走到今天,一切都源於RTE大會以及背後的聲網公司十年前的那份堅持與初心。

1

拓荒到蓬勃:技術布道者到行業風向標

今天,實時音影片(RTC)互動技術已經成為一項基礎設施,在我們的日常生活中無處不在。

影片會議、在線課堂、社交平台直播連線PK等眾多場景都有實時音影片的支撐,才有了低延遲、低卡頓、高清晰度、沉浸式的互動體驗。

十年前,國內實時音影片還是一片荒原,聲網看到機會,率先推出RTC PaaS服務以此來打開市場。實時音影片技術門檻較高,僅有WebRTC,開發者依然很難上手實踐,而在RTC PaaS模式下,開發者只需調用簡單的API接口就能實現實時音影片互動,極大地降低了開發者的門檻和成本。

彼時恰逢移動互聯網全面爆發,整個行業生機勃勃,實時音影片也開始尋找落地的契機。

成立後的第二年,聲網創始人趙斌意識到實時音影片將是互聯網企業必須的工具和功能,聲網作為在這片荒原上第一個揮鋤頭開荒的人,必須擔負起技術布道者的責任。

所以在 2015 年,為了讓實時音影片行業擁有一個能進行技術交流、行業趨勢探討的機會,聲網將WebRTC大會引入中國,籌辦了第一屆面向國內開發者、業務人員和用戶的RTC大會,這也是一個為開發者而生的純行業技術峰會。

第一屆RTC大會議程安排上僅由一個主會場、一個分論壇,以及一個 workshop 組成,就吸引了 700 多名觀眾參與。之後,聲網與參會者約定——一年一會,萬象更新。

在第一屆WebRTC大會上,W3CWebRTC標準中Media Capture和Streams Specifications核心部分的合編者——「WebRTC標準之父」Dan Burnett出席現場會議,並與伊利諾伊理工學院客座教授Alan Johnston一起,為開發者們進行了約8個小時的培訓課程,對於開發者來說,在當時RTC專業知識極度匱乏的年代,猶如久旱逢甘霖。

2015 年的RTC大會打破了RTC技術布道在國內「三無」狀態:無行業會議、無專業書籍、無專業媒體及社區。而在RTE 大會邁入第10年之際,聲網也於今年8月正式出版行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》,持續為科普實時互動添磚加瓦。

十年過去了,今天RTE大會已經成為業內當之無愧的「全球規模最大音影片行業峰會」,大會規模擴張到 20 多個論壇,觀眾數上限一度達到六七千人。

據聲網官方統計,這些年間,大會累計影響了 200 多萬開發者,覆蓋 300 多個行業場景,吸引 2000 多名專家講師參與分享,成績斐然。這期間,RTE大會似乎每年都能「押題」成功,成為行業的風向標。

2015 年,在第一屆RTC大會上,聲網提出「直播連麥」將成為主流玩法,第二年,連麥互動便成為直播風口。

2016 年,聲網認為在線教育將成為新風口,第二年,在線教育迎來爆髮式增長。

……

2023 年,大會主題是智能、高清,再一次成功預判了未來趨勢,24 年年初多模態爆發,Sora、GPT-4o引爆輿論,多模態成為各大模型玩家最重要的發力方向。

當AI成為科技界的主流,RTE第十屆便是以「AI 愛」為主題,推出了覆蓋AI、出海、Voice AI等 20+行業及技術分論壇。

在此次大會上,聲網CEO趙斌認為生成式AI正在驅動IT行業發生大變革,主要體現在四個層面:終端、軟件、雲和人機界面,其中AI Native Cloud將成為主流。

Lepton AI 創始人兼 CEO 賈揚清也認為繼 Web 雲、數據雲之後,AI 是雲的第三次浪潮。在 AI 雲的形態下,實時的交流和智能的結合在用戶體驗環節非常重要,可以說實時將直接與生產力劃上等號。

作為此次大會的主論壇演講嘉賓,賈揚清分別從 AI 應用、雲、GPU 算力雲技術以及企業大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。他認為,今天是最容易建設AI應用的時代,越是簡潔的AI模型思路越容易產生優秀的效果。

本次大會持續了兩天,大會上的分享嘉賓集結了當下AI屆的名流,包括「大模型六虎」中的智譜、MiniMax、零一萬物,還有Google、WPS、Soul這些在AI應用落地探索走在前列的企業。他們結合自身業務,分享了過去兩年里在AI、大模型方向的探索,這將是給與業界的一筆寶貴經驗。

本次大會不僅囊括了RTE+AI發展的前沿技術分享,還將關注點放在了當下大家最關心的AI落地問題上。

大會最精彩的一部分便集中在在圓桌討論環節,就AI的 6000 億美金難題,Lepton AI 創始人兼 CEO 賈揚清、MiniMax 合夥人魏偉、面壁智能聯合創始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯合創始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎設施到 AI 商業化落地的機會與挑戰。

賈揚清認為基於開源架構的應用會越來越普遍;王鐵震呼籲大家不僅要關注開源模型本身,還要重視開源模型的基礎設施和數據閉環;魏偉則闡釋了在產品和用戶服務過程中,文本、語音、音樂、影片這些模型可以很好地幫助藝術、影視、音樂等領域的創作者提高效率,並提出新思路;曾國洋認為未來算力一定會越來越便宜,算力成本優化最終會轉化為訓練更強大的模型。

在大會上,聲網發佈了他們的RTE+AI能力全景圖,在全景圖中,聲網從實時 AI 基礎設施、RTE+AI 生態能力、聲網 AI Agent、實時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度,清晰呈現了當下 RTE 與 AI 相結合的技術能力與應用方案。

正如CEO趙斌所說,生成式AI與RTE結合帶來的場景創新,將成為下一個十年的主題。

2

新機遇:

實時多模態是通向AGI的必由之路

今年 5 月,GPT-4o一經發佈便再次引起業內熱議,其展示出的實時語音交互能力讓人印象深刻,開創了AI實時語音交互的先河。

在發佈會上,GPT-4o展示了大幅降低的語言延遲,平均 320 毫秒的反應時間,讓AI與人類的對話第一次接近人類真實對話的反應速率。

實時的交流和智能的能力是人機結合的重中之重,正如賈揚清在RTE大會上所說,實時可以跟生產力劃等號。

但要達到人類可接受範圍內的「實時」,端到端實時多模態的崛起只是近來取得技術突破的一條明顯,它從思考速度上縮短了語音的交互實踐,而另一條暗線則是 RTC(實時音影片,Real-Time Communications)技術的進步

而GPT-4o正是在採用RTC方案後,便展現出了自然、流暢的低延時語音交互體驗。而且在實際應用中,用戶的設備很多時候不能始終聯網,所以無論多強大的模型都要依靠RTC技術來實現實時對話。

因此,RTC是將多模態大模型跟實時互動場景連接起來的關鍵技術橋樑。

聲網CEO趙斌稱,生成式AI有一個大的、清晰的方向就是向多模態清晰深度進化,除了提供GPT-4o發佈會上令人驚豔的情感擬人對話之外,更重要的是打開大模型進一步智能進化的數據需求。

目前文字訓練數據基本上已經被充分利用,語言本身是一種聲音化的文字,能夠提供的信息和數據的空間將會被放大很多倍,並且超過文字,自然環境的聲音和視覺數據的獲取、運用,將給大模型提供幾乎無限的數據空間。因此多模態成為當下的重要發展方向。

在推進多模態清晰深度進化上,聲網通過過去和多個行業夥伴打磨、對接、深度實驗、測試、評估,發現多模態對話體驗存在兩個關鍵側面:(1)聲音體驗包括延遲、語氣、情感、情緒、口音,這些都是人與大模型進行人機對話時體驗的關鍵角度。(2) 人與大模型支持的 agent 對話時的互動體驗中,最核心的就是「打斷行為」,如果在對話中打斷不自然,出現搶話、不知道如何順利開展下一段討論等行為,也會對人機交互的效果產生影響。

而這些要通過對現有的RTE技術棧等基礎設施進行改進,大模型才有機會大規模參與到與人的各種對話,在各種場景、形態、模型下開展直接語音對話。未來RTE基礎設施將會成為多模態大模型AI Infra的關鍵部分。(註:RTE在提供RTC音影片服務的基礎上進一步提供了更加豐富和靈活的實時互動能力,讓開發者可以根據不同的場景需求,自由地選擇和組合各種實時互動能力,打造出更加個性化和差異化的實時互動體驗)。

趙斌認為只有把RTE技術運用地足夠好,部署到全球各個雲和邊緣節點,大模型的多模態能力才能普遍地、高質量地走進各種實時互動場景。

而在這場多模態帶來的實時對話式AI的競爭中,由於RTE技術門檻較高,那麼接下來,只有擁有核心技術和具備行業解決方案能力的實時音影片廠商才能接住大模型帶來的這波新機遇。

在國內市場,聲網不僅是頭部玩家,還是實時音影片領域的拓荒者,深深紮根行業已達十年。

10 月初 OpenAI 發佈了實時API公測版,瞄準了GPT-4o語音到語音的AI應用和智能體,還公佈了三家語音API合作者的身份:LiveKit、Twilio,以及 Agora。

其中,Agora的兄弟公司便是聲網,從底層的RTC等音影片能力來看,兩個兄弟公司都有一致且深厚的技術積累。

相較於市面上大部分 2-3 秒的AI互動延遲實踐,聲網的對話式AI解決方案將對話響應延時優化至500毫秒,該方案以語音為核心,支持影片擴展,實現文本/音頻/圖像/影片的組合輸入&輸出,通過豐富的功能構建真實、自然的 AI 語音交互體驗。

而聲網RTE技術在AI上的探索,並不是追風口的一時興起,早在四年前,transformer 在學術界嶄露頭角不久,聲網是業內首家開始把AI技術引入RTE技術棧的公司,用於改善音影片傳輸保障。

不僅如此,緊跟兄弟公司Agora的步伐,聲網跟 MiniMax 正在打磨國第一個Realtime API。聲網CEO趙斌在RTE2024上展示了聲網基於 MiniMax Realtime API打造的人工智能體。在演示影片中,人與智能體能輕鬆流暢地進行實時語音對話,即便人打斷提問、進行新的提問,智能體也能像人一樣反應靈敏。

可以預見的是,AI跟RTE結合,正給人機交互帶來諸多可能,純文字互動的大模型無法實現AGI,RTC加持下的實時多模態將是必由之路。