聲網CEO趙斌：大模型API成本已下降超90%，實時互動未來將成生成式AI關鍵方向｜鈦媒體AGI

聲網創始人兼CEO趙斌

隨著OpenAI GPT-4o等多款實時語音對話類模型的推出，RTE（實時互動）技術再次迎來新的發展時期。

鈦媒體App 10月28日消息，近期舉行的RTE 2024實時互聯網大會上，聲網創始人兼CEO趙斌（Tony Zhao）在演講中表示，美國OpenAI近期將自身API調用成本和價格下降90%以上，中國市場也是價格戰硝煙四起，而且各種算法和模型創新風起雲湧、你追我趕。所以，生成式 AI 將提供無限的想像空間和廣闊的可能性，包括和RTE和實時互動能力的結合，擁有巨大技術潛力。

「未來10年-20年，無論是PC，還是智能手機，都必然以如何更好支持大模型能力在端側上應用以及推理能力提高和成熟為主要進化軸線。」趙斌強調，生成式 AI 正在驅動 IT 行業發生大變革，這一趨勢主要體現終端、軟件、雲和人機界面四個方向上，而聲網將與大模型獨角獸MiniMax打造中國第一個Realtime API。

據悉，聲網成立於2014年，是全球實時互動雲服務商，面向社交直播、教育、遊戲電競、IoT、AR/VR、金融、保險、醫療、企業協作等多個領域提供PaaS（平台即服務）、實時互動雲等技術服務。

2020年6月底，聲網母公司Agora, Inc.（NASDAQ:API）在諾斯達克上市。

2023財年第一季度業績報告上，趙斌宣佈，為努力精簡組織結構，提高運營效率，Agora, Inc.旗下將以不同的品牌——聲網、Agora運營兩個獨立公司，美國和國際業務將以Agora 品牌運營，中國業務將以聲網品牌運營。「我們相信，此次戰略重組將使我們能夠將資源最佳地集中在每個業務的優先事項上——推動 Agora 業務的增長並更有效地競爭聲網業務，同時考慮到每個市場客戶獨特的經濟和產品需求。隨著新機遇的出現，這種新的組織結構還將使我們變得更加敏捷。」

今年8月，Agora, Inc. 集團發佈的最新財報顯示，2024財年第二季度，公司總收入3420萬美元，同比增長0.5%。其中，受益於物聯網等行業銷售增加，聲網國內收入1.319億元人民幣（1860萬美元），較去年同期增長0.3%。

截至2024年6月30日，聲網活躍客戶數量達3774家，過去12個月內淨留存率達79%。

如今，隨著全球經濟復甦以及全球科技轉向AI技術，生成式AI賽道迎來廣闊前景。

麥肯錫最新報告顯示，2023年，全球生成式 AI 市場規模670億美元，預計到2027年、2032年分別達到3990億美元和1.3萬億美元，2023-2032年10年的復合增長率高達42%。

2024年5月，OpenAI公司推出可免費使用的全新旗艦AI模型GPT-4o，可實時進行音頻、視覺和文本推理，並且在短至232毫秒、平均320毫秒的時間內響應音頻輸入，與人類在對話中的反應速度一致。在API使用方面，相比GPT-4-Turbo，GPT-4o價格降低一半（50%），速度提升兩倍（200%）。

OpenAI CEO奧爾特曼（Sam Altman）表示，新的GPT-4o是OpenAI有史以來最好的模型，它很智能，速度很快，是原生多模態，並且它可供所有ChatGPT用戶使用，無論是免費版本還是付費GPT-4版。

今年10月，實時音影片技術公司、聲網的兄弟公司Agora作為語音API合作者出現在OpenAI 發佈的Realtime API 公開測試版中，引發關注。在此之前，聲網和Agora上次引發關注是兩年前的實時語音互動Clubhouse風靡全球，而Agora提供實時互動技術支持，該公司市值一度暴漲到100億美元以上。

年初至今，Agora, Inc.集團美股上漲了20%左右，主要受益於生成式 AI 和海外直播電商熱潮。

10月25日，趙斌在演講中透露，過去的十年，RTE能力在各種手機應用和軟件中的穿透力從不到1%，到2021年大概7%，到現在超過10%，差不多在以每年1%的速度持續穿透到各種應用。

目前，聲網單月服務超過700億分鐘（按頻繁人數計時）。

會上，聲網正式發佈RTE+AI能力全景圖，其中包括從實時 AI 基礎設施、RTE+AI 生態能力、聲網 AI Agent、實時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度，呈現當下RTE與AI相結合的技術能力與應用方案。

趙斌強調，生成式 AI 正在驅動終端、軟件、雲和人機界面四個層面發生變革。在終端上，大模型能力將驅動PC和Phone往AI PC和AI Phone的方向進化；在軟件上，所有軟件將通過大模型重新實現，從Software with AI發展至AI Native Software；雲層面，所有雲都需要具備對大模型訓練和推理的能力，AI Native Cloud將成為主流；人機界面的主流交互方式將從鍵盤、鼠標、觸屏變成自然語言對話界面（LUI）。

此外，今年RTE活動上還討論了紅杉資本合夥人 David Cahn（大衛·簡尼）曾提出的「AI 支出6000億美元難題」，即AI基礎設施的巨額投資和實際收入之間差距過大。

對此，Lepton AI創始人兼首席執行官賈揚清認為，同等尺寸的模型，能力會越來越強，尤其是通過蒸餾、壓縮等技術，現在的Llama 3.2 3B（30億參數）模型甚至可以和以前的Llama 70B模型能力相近。除了極少數頭部公司之外，越來越多的企業會採用「開源+精調」來做下一代模型，因此開源架構的應用會越來越普遍。

賈揚清判斷，推理成本一年內會降到現在的1/10，創業者在構建應用時可以按照做一個應用成本是目前1/10來進行成本核算，看能不能做，包括模型、硬件和應用在上量後，也都是可以降低成本的。

Hugging Face工程師王鐵震表示，現在擔心AI取代人類是比較早的，但是AI已經對一些行業產生了不好影響，比如影片以假亂真的影響，包括對青少年心理的影響，而這裏創業的機會也是非常多的。

MiniMax合夥人魏偉強調，隨著多模態的出現，生成式 AI 的邊界一定會被繼續拓展，文本、語音、音樂、影片這些模型可以很好地幫助藝術、影視、音樂等領域的創作者極大地提高效率，並加速相關產業的變革。

「過去的十年，實時互動從理念發展成一個行業。實時互動技術不僅助力社交泛娛樂、在線教育、IoT、企業服務等幾十個行業、數百個場景實現了跨越式成長，也支撐了諸多互聯網風口的進化。我們有理由期待下一個十年更為波瀾壯闊和激動人心，開創一個生成式AI時代下的RTE新篇章。」趙斌在演講結尾表示。

（本文正選於鈦媒體App，作者｜林誌佳，編輯｜胡潤峰）