在RTE2024,窺見實時AGI的未來

作者|週一笑郵箱|zhouyixiao@pingwest.com

AI+RTE:讓《Her》走進現實

GPT-4o的高級語音模式讓我們看到了AI也可以具備低延遲且自然流暢的對話能力。絲滑的體驗讓智能助手真正擺脫了「智障」的帽子,科幻電影《Her》中的場景,走進了現實。

10月,OpenAI發佈的Realtime API,讓開發者可以輕鬆地將這種絲滑的語音體驗植入自己的應用。

在此之前,需要串聯多個模型的繁瑣過程才能實現,例如,開發者需要使用自動語音識別工具,比如Whisper,來轉錄音頻,將轉錄的文本傳遞給推理模型,然後使用文本轉語音模型來播放響應。這種方法不僅耗時,且常常導致對話中情感、腔調和口音等重要元素的丟失。

相比之下,OpenAI的Realtime API能進一步降低語音交互的延時,能夠實現更接近真人的情感和情緒表達,提供更自然的對話體驗。

要實現這種體驗,離不開端到端訓練的語音基礎模型,這依靠的是OpenAI強大的科研和工程能力,而要讓這種體驗走進更多用戶的日常,不僅僅是停留在demo演示當中,則離不開成熟的語音模態基礎設施提供支撐。為此,OpenAI找到了合適的合作夥伴,其中就有聲網的兄弟公司Agora。

Agora與OpenAI宣佈合作,發佈了對話式AI SDK,該SDK集成了Realtime API,同時利用了Agora的智能路由和超低延遲實時網絡,集成了AI回聲消除和背景噪聲消除等功能,確保在任何環境下都能進行精準的語音處理,成為開發者和OpenAI的GPT模型之間的可靠連接。

眼光轉向國內,AI+RTE的故事同樣精彩。各大模型廠商都在摩拳擦掌,試圖突破「冷冰冰」的文本對話框,讓用戶與AI的交互來得更實時、更自然、更有溫度。智譜清言、豆包和Kimi等產品都推出了自己的實時語音通話功能。

這波AI+RTE的浪潮,正在悄然改變著我們與AI對話的方式,而這可能只是智能交互新時代的開始。

AI濃度拉滿的RTE2024

Agora與OpenAI的合作成為行業焦點,標誌著實時互動(RTE)與人工智能正加速融合,這不是個例,已經成為一個顯而易見的趨勢,行業正在朝著「實時構建AGI」的願景邁進。

十年光陰,見證變革。2015年,當第一屆RTE大會在國內召開時,實時音影片還是一個相對小眾的技術領域。彼時的行業氛圍基本是「一片荒蕪」:沒有專業的技術交流平台,沒有系統的知識傳承,也缺乏活躍的技術社區。十年間,聲網以實幹者的姿態,作為RTE領域的領軍企業,通過持續舉辦RTE大會、建設開發者社區、出版專業技術書籍等方式,逐步構建起行業完整的知識體系和交流生態。

今年8月,聲網還出版了行業首本系統介紹實時互動的技術型科普書籍《讀懂實時互動》,填補了RTE領域無專業書籍的空白,為行業的學習和普及提供了重要參考。

如今,RTE大會早已不是單純的音影片技術聚會,從娛樂直播、出海、音影片會議,到在線教育、iot、數字化……曆年的RTE大會就像是一個風向標 ,成為行業風口和技術變遷的第一手見證。隨著AI大模型技術與音影片技術的深度融合,今年十週年的RTE大會更是成為AI濃度最高的一屆。

從技術演進的脈絡來看,實時互聯網技術(RTE)經過十餘年發展,已從最初的點對點通訊,發展到支撐直播、遠程協作等複雜應用場景。而生成式 AI 的出現,則為RTE注入了全新的想像空間,今年的RTE2024會場內外,與會者們熱切討論著AI與RTE的結合將帶來怎樣的可能性。

在本屆大會上,聲網也正式發佈了RTE+AI能力全景圖,從實時AI基礎設施、RTE+AI生態能力、聲網AI Agent、實時多模態對話式AI解決方案、RTE+AI應用場景五個維度,從底層的實時AI基礎設施,到上層的多模態對話解決方案,再到豐富多樣的應用場景,展現了RTE與AI融合的技術版圖。

聲網創始人趙斌描繪了生成式AI驅動下的IT行業四大變革:AI PC、AI Native Software、AI Native Cloud以及以自然語言為主的人機交互界面。值得關注的是,聲網與MiniMax正在打造中國首個Realtime API,現場展示的人工智能體已實現了流暢的實時對話效果。

AI Native是一個倍受關注的概念,與其說這是一種技術選擇,不如說這預示著整個產業的思維方式正在發生轉變。正如Lepton AI創始人賈揚清所指出的:AI是繼Web雲、數據雲之後的「第三朵雲」。在他看來,未來應用開發將從「以流程為中心」轉向「以模型為中心」,他還強調實時性與智能的結合將直接等同於生產力。這種轉變堪比上世紀90年代從字符界面到圖形界面的革命性躍遷。

在基礎架構層面,聲網CTO鍾聲現場展示了端邊雲結合的方案,在超過千人的嘈雜會場環境下,基於端邊雲架構的AI智能體依然展現出優秀的實時對話能力。不僅證明了分佈式端邊雲結合方案的可行性,也展示了在複雜環境下突破次秒級響應、噪聲對抗等技術難題的可能性,為解決AI大規模落地面臨的成本、延遲和隱私等核心問題提供了新思路。

在商業化落地方面,與會嘉賓們普遍認為,模型小型化、計算效率提升將是必然趨勢。特別是在開源架構日益普及的背景下,企業可以通過開源模型+定製化路線,實現更低成本、更快速度的落地。

當然,挑戰依然存在。算力成本、端側優化困難、商業模式待驗證等問題都需要時間去解決。但從歷史經驗來看,一旦技術演進方向確立,這些問題往往會在產業鏈的共同推動下逐步得到解決。

從現場的討論來看,RTE和AI的結合正在催生新的技術範式和商業模式,大會傳遞出一個清晰的共識:多模態能力的不斷拓展可能成為引爆下一輪革新的關鍵。語音、視覺、文本等多種模態的融合,不僅擴展了AI的能力邊界,更為創新應用提供了沃土。從創作輔助到智能客服,從教育培訓到娛樂互動,多模態AI正在開啟更多的可能性。

人機交互進化,RTC築基未來

視覺和聽覺是人類感知世界的主要通道,不僅是我們最原始的信息獲取方式,也是信息密度最高、最直觀的交互模式,這一基本事實決定了無論技術如何更迭,科技行業風口如何變遷,實時音影片技術(RTE)始終是提供實時通信和交互支持的核心基礎,將在人機交互中扮演關鍵角色。

據CCW Research的報告,超過80%的客戶仍然偏好基於語音的服務。這一數據印證了在AI時代,語音交互的重要性不減反增。Meta發佈的智能眼鏡Ray-Ban Meta就展現了這一潛力,升級後的Ray-Ban一大亮點正是實時AI影片處理和實時語言翻譯能力,這些多模態功能雖然還沒有全部正式推出,但從市場反饋已足見其對消費者的吸引力。可以預見,無論是對於大模型廠商還是AI硬件廠商,實時交互能力將成為行業的新標配。

然而要實現這種新的標配能力,離不開強大的底層基礎設施的支撐。廠商沒必要,也不可能全都去做一遍重覆造輪子的事情。正如我們在影片會議、社交泛娛樂等行業發展歷程中所看到的,各個廠商與聲網這樣的RTE-PaaS平台合作成為了一種自然的選擇,這種趨勢如今正在向AI領域擴展。大模型公司和開發者可以專注於模型優化和應用開發,而不必過多關注底層通信技術的複雜性。

結語

過去十年,我們見證了太多技術從概念走向普及的精彩瞬間。在技術進化的大潮中,RTE的發展軌跡同樣令人矚目。聲網和RTE大會走過的這十年,是一段從技術突破到產業變革的關鍵旅程:RTE從一個前沿通信概念,蛻變為數字時代的關鍵基礎設施。與此同時,我們也親曆了AI技術的加速進化——從實驗室的尖端研究到開放商用,AI正以前所未有的速度滲透到各個產業場景。

傳統認知中,實時交互主要解決的是人與人之間的連接問題,但在AI時代,這種連接延伸到了人與AI之間。RTE會上展示的次秒級AI對話能力,也暗示著我們正在接近一個臨界點:AI不再是一個被動的工具,而是能夠與人類進行真正自然交互的智能體。

當RTE與AI這兩股技術浪潮交彙,我們看到的不僅是簡單的技術疊加,而是一次革命性的範式轉變。這種融合正在重塑我們對AGI的理解和想像——也許在下一個十年,那個能夠實時感知、實時思考、實時決策的AGI,將從科幻走進現實,開啟人類與人工智能協同進化的新紀元。