新經濟觀察 | 讓你早兩小時下班的秘密 藏在被AI賦能的語音轉寫賽道里

封面新聞記者 歐陽宏宇

當打工人遇見人工智能能實現“準點下班”自由嗎?在獲得AI大模型能力賦能後,多款語音轉寫工具給出了肯定的答案。

3月19日,阿里大模型產品“通義聽悟”宣佈面向AI技術迭代多項新功能,上線音視頻問答助手“小悟”。據介紹,此次迭代後,通義聽悟已實現單記錄、跨記錄、多語言自由問,並支援對單個最長6小時、一次性上百條音視頻的內容理解問答。

工作會議、業務洽談、部門討論等工作場景中,音視頻是最常見的生產資料。由於涉及多模態理解、自然語言處理、搜索等多項複雜技術,對打工人來說,承載了密集信息內容的音視頻也是查找、回顧、提煉的難點。對此,已有科大訊飛、搜狗、阿里雲等科技企業針對這一場景開發智慧語音工具。

如今,在AI技術的賦能下,智慧語音工具已經實現在學習超長音視頻後讓用戶隨心提問,甚至幫助用戶總結任意知識點。

“對於工作學習AI助手而言,應該讓高知識附加值的音視頻被輕鬆閱讀、整理和分享。”阿裡通義聽悟產品負責人楊帆介紹,接入通義千問大模型後,“小悟”可以通過多語言Query處理、長篇章文本理解、指令演化框架優化及檢索增強生成算法,實現超長音視頻的內容自由問答,還可以在學習音視頻後,幫助用戶整理金句、梳理結論、寫會議紀要等。

同一賽道上,訊飛聽見推出了“AI助手”功能,支援智能算法自動分析錄音內容,並能幫助用戶要點基本都提煉出來了。搜狗輸入法也上線了AI錄音助手功能,讓用戶可以由AI實現一對一的“代寫”服務。

各頭部企業在智能語音轉寫賽道上加速迭代,追求的是廣闊的前景。艾瑞諮詢數據顯示,國內智能語音市場在過去幾年中增長迅速,從2019年市場消費規模約77億元,至2022年增至159億元,並有望在2023年增至215億元。在使用場景差異不大的情況下,加入AI技術就能增加更多的附加值,也就有望獲得更大的市場。

從語音識別技術到AI大模型技術,語音轉寫行業的天花板正在不斷被突破。對此,中國社會科學院信息化研究中心主任薑奇平分析稱,如今的平台型技術已不是為AI而AI,未來會為各種應用場景搭建技術平台,著眼於應用來開發人工智能。