內含超 100 萬小時多語種錄音,MLCommons 推出大型音頻數據集
IT之家 2 月 10 日消息,AI 工程聯盟 MLCommons 當地時間 1 月 30 日宣佈 the Unsupervised People’s Speech 數據集,這一數據集包含超過 100 萬小時的音頻內容,有望為 AI 在音頻領域的下一步發展奠定基礎。

Unsupervised People’s Speech 數據集的資源來自 Archive.org,由 MLCommons 和 HuggingFace 聯合創建,未進行數據推理和預處理。
這一數據集整體規模超 48 TB。雖然 Unsupervised People’s Speech 的內容以美式英語為主,但仍涵蓋數十種語言;其中大多數音頻的長度在 1 到 10 分鐘之間,僅有 14 個超過了 100 小時。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。