在RTE2024，窺見實時AGI的未來

作者｜週一笑郵箱｜zhouyixiao@pingwest.com

AI+RTE：讓《Her》走進現實

GPT-4o的高級語音模式讓我們看到了AI也可以具備低延遲且自然流暢的對話能力。絲滑的體驗讓智能助手真正擺脫了「智障」的帽子，科幻電影《Her》中的場景，走進了現實。

10月，OpenAI發佈的Realtime API，讓開發者可以輕鬆地將這種絲滑的語音體驗植入自己的應用。

在此之前，需要串聯多個模型的繁瑣過程才能實現，例如，開發者需要使用自動語音識別工具，比如Whisper，來轉錄音頻，將轉錄的文本傳遞給推理模型，然後使用文本轉語音模型來播放響應。這種方法不僅耗時，且常常導致對話中情感、腔調和口音等重要元素的丟失。

相比之下，OpenAI的Realtime API能進一步降低語音交互的延時，能夠實現更接近真人的情感和情緒表達，提供更自然的對話體驗。

要實現這種體驗，離不開端到端訓練的語音基礎模型，這依靠的是OpenAI強大的科研和工程能力，而要讓這種體驗走進更多用戶的日常，不僅僅是停留在demo演示當中，則離不開成熟的語音模態基礎設施提供支撐。為此，OpenAI找到了合適的合作夥伴，其中就有聲網的兄弟公司Agora。

Agora與OpenAI宣佈合作，發佈了對話式AI SDK，該SDK集成了Realtime API，同時利用了Agora的智能路由和超低延遲實時網絡，集成了AI回聲消除和背景噪聲消除等功能，確保在任何環境下都能進行精準的語音處理，成為開發者和OpenAI的GPT模型之間的可靠連接。

眼光轉向國內，AI+RTE的故事同樣精彩。各大模型廠商都在摩拳擦掌，試圖突破「冷冰冰」的文本對話框，讓用戶與AI的交互來得更實時、更自然、更有溫度。智譜清言、豆包和Kimi等產品都推出了自己的實時語音通話功能。

這波AI+RTE的浪潮，正在悄然改變著我們與AI對話的方式，而這可能只是智能交互新時代的開始。

AI濃度拉滿的RTE2024

Agora與OpenAI的合作成為行業焦點，標誌著實時互動(RTE)與人工智能正加速融合，這不是個例，已經成為一個顯而易見的趨勢，行業正在朝著「實時構建AGI」的願景邁進。

十年光陰，見證變革。2015年，當第一屆RTE大會在國內召開時，實時音影片還是一個相對小眾的技術領域。彼時的行業氛圍基本是「一片荒蕪」：沒有專業的技術交流平台，沒有系統的知識傳承，也缺乏活躍的技術社區。十年間，聲網以實幹者的姿態，作為RTE領域的領軍企業，通過持續舉辦RTE大會、建設開發者社區、出版專業技術書籍等方式，逐步構建起行業完整的知識體系和交流生態。

今年8月，聲網還出版了行業首本系統介紹實時互動的技術型科普書籍《讀懂實時互動》，填補了RTE領域無專業書籍的空白，為行業的學習和普及提供了重要參考。

如今，RTE大會早已不是單純的音影片技術聚會，從娛樂直播、出海、音影片會議，到在線教育、iot、數字化……曆年的RTE大會就像是一個風向標，成為行業風口和技術變遷的第一手見證。隨著AI大模型技術與音影片技術的深度融合，今年十週年的RTE大會更是成為AI濃度最高的一屆。

從技術演進的脈絡來看，實時互聯網技術（RTE）經過十餘年發展，已從最初的點對點通訊，發展到支撐直播、遠程協作等複雜應用場景。而生成式 AI 的出現，則為RTE注入了全新的想像空間，今年的RTE2024會場內外，與會者們熱切討論著AI與RTE的結合將帶來怎樣的可能性。

在本屆大會上，聲網也正式發佈了RTE+AI能力全景圖，從實時AI基礎設施、RTE+AI生態能力、聲網AI Agent、實時多模態對話式AI解決方案、RTE+AI應用場景五個維度，從底層的實時AI基礎設施，到上層的多模態對話解決方案，再到豐富多樣的應用場景，展現了RTE與AI融合的技術版圖。

聲網創始人趙斌描繪了生成式AI驅動下的IT行業四大變革：AI PC、AI Native Software、AI Native Cloud以及以自然語言為主的人機交互界面。值得關注的是，聲網與MiniMax正在打造中國首個Realtime API，現場展示的人工智能體已實現了流暢的實時對話效果。

AI Native是一個倍受關注的概念，與其說這是一種技術選擇，不如說這預示著整個產業的思維方式正在發生轉變。正如Lepton AI創始人賈揚清所指出的：AI是繼Web雲、數據雲之後的「第三朵雲」。在他看來，未來應用開發將從「以流程為中心」轉向「以模型為中心」，他還強調實時性與智能的結合將直接等同於生產力。這種轉變堪比上世紀90年代從字符界面到圖形界面的革命性躍遷。

在基礎架構層面，聲網CTO鍾聲現場展示了端邊雲結合的方案，在超過千人的嘈雜會場環境下，基於端邊雲架構的AI智能體依然展現出優秀的實時對話能力。不僅證明了分佈式端邊雲結合方案的可行性，也展示了在複雜環境下突破次秒級響應、噪聲對抗等技術難題的可能性，為解決AI大規模落地面臨的成本、延遲和隱私等核心問題提供了新思路。

在商業化落地方面，與會嘉賓們普遍認為，模型小型化、計算效率提升將是必然趨勢。特別是在開源架構日益普及的背景下，企業可以通過開源模型+定製化路線，實現更低成本、更快速度的落地。

當然，挑戰依然存在。算力成本、端側優化困難、商業模式待驗證等問題都需要時間去解決。但從歷史經驗來看，一旦技術演進方向確立，這些問題往往會在產業鏈的共同推動下逐步得到解決。

從現場的討論來看，RTE和AI的結合正在催生新的技術範式和商業模式，大會傳遞出一個清晰的共識：多模態能力的不斷拓展可能成為引爆下一輪革新的關鍵。語音、視覺、文本等多種模態的融合，不僅擴展了AI的能力邊界，更為創新應用提供了沃土。從創作輔助到智能客服，從教育培訓到娛樂互動，多模態AI正在開啟更多的可能性。

人機交互進化，RTC築基未來

視覺和聽覺是人類感知世界的主要通道，不僅是我們最原始的信息獲取方式，也是信息密度最高、最直觀的交互模式，這一基本事實決定了無論技術如何更迭，科技行業風口如何變遷，實時音影片技術（RTE）始終是提供實時通信和交互支持的核心基礎，將在人機交互中扮演關鍵角色。

據CCW Research的報告，超過80%的客戶仍然偏好基於語音的服務。這一數據印證了在AI時代，語音交互的重要性不減反增。Meta發佈的智能眼鏡Ray-Ban Meta就展現了這一潛力，升級後的Ray-Ban一大亮點正是實時AI影片處理和實時語言翻譯能力，這些多模態功能雖然還沒有全部正式推出，但從市場反饋已足見其對消費者的吸引力。可以預見，無論是對於大模型廠商還是AI硬件廠商，實時交互能力將成為行業的新標配。

然而要實現這種新的標配能力，離不開強大的底層基礎設施的支撐。廠商沒必要，也不可能全都去做一遍重覆造輪子的事情。正如我們在影片會議、社交泛娛樂等行業發展歷程中所看到的，各個廠商與聲網這樣的RTE-PaaS平台合作成為了一種自然的選擇，這種趨勢如今正在向AI領域擴展。大模型公司和開發者可以專注於模型優化和應用開發，而不必過多關注底層通信技術的複雜性。

結語

過去十年，我們見證了太多技術從概念走向普及的精彩瞬間。在技術進化的大潮中，RTE的發展軌跡同樣令人矚目。聲網和RTE大會走過的這十年，是一段從技術突破到產業變革的關鍵旅程：RTE從一個前沿通信概念，蛻變為數字時代的關鍵基礎設施。與此同時，我們也親曆了AI技術的加速進化——從實驗室的尖端研究到開放商用，AI正以前所未有的速度滲透到各個產業場景。

傳統認知中，實時交互主要解決的是人與人之間的連接問題，但在AI時代，這種連接延伸到了人與AI之間。RTE會上展示的次秒級AI對話能力，也暗示著我們正在接近一個臨界點：AI不再是一個被動的工具，而是能夠與人類進行真正自然交互的智能體。

當RTE與AI這兩股技術浪潮交彙，我們看到的不僅是簡單的技術疊加，而是一次革命性的範式轉變。這種融合正在重塑我們對AGI的理解和想像——也許在下一個十年，那個能夠實時感知、實時思考、實時決策的AGI，將從科幻走進現實，開啟人類與人工智能協同進化的新紀元。