AI時代到來,分享一款好用的本地語音輸入工具

 

大家好,我是波導終結者。

這幾年AI的發展非常的迅速,也湧現出了不少好用的工具。我之前跟大家分享過,比如說人聲分離呀,語音和文字的互轉呀,這些工具都很實用。最近有不少廠家都在佈局AI相關方面的應用,而在開源界,其實也有很多很不錯的項目或者大神。今天跟大家分享的就是一款非常好用的語音識別輸入工具,完全本地運行,無需聯網。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

這個項目在github的地址是,作者HaujetZhao,項目名CapsWriter-Offline(之後統一用CapsWriter稱之),由於一些眾所周知,卻又不方便說的原因,這裏可能給不了大家直接的地址,這種東西確實需要一點點的門檻。項目開源,使用的是阿里巴巴開源的 Paraformer 模型和標點符號模型。作者已經把Windows的可執行文件和模型都做好打包了,理論上只需要下載解壓運行就可以。個人覺得有點搞笑的是中文語音輸入的模型只有230MB大小,而標點符號模型卻有1GB大小,但怎麼樣也算非常小了。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

這個項目的運行完全依賴於本地模型,但是杠精肯定會說,你這不是有服務端跟客戶端嗎?是的,相關的技術問題我也懶得科普,其實大部分工具都是這麼個模式,只是把服務端跟客戶端一起打包隱藏起來了而已。這個項目所使用的服務端,因為技術原因只支援win10,作者又很貼心的給客戶端提供了32位win7的版本,而已。如果你是win10本機運行,雖然需要服務端跟客戶端,但是我實測完全就是127.0.0.1的本機訪問而已,不需要互聯網。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

解壓完之後,目錄下的config.py是主要的配置文件,使用記事本即可打開編輯,這裏我也把幾個比較重要的選項用紅框標註了出來。首先是識別模式,支援長按和按鍵切換開關兩種模式,我個人還是習慣使用長按。而預設的快捷鍵是大小寫鍵,這也正是此項目叫做CapsWriter的原因,我這裏是把它改成了鍵盤上的Scroll Lock鍵,知道這個鍵的都跟我一樣,是老傢伙了吧。然後軟件還支援把輸入進行一個錄音,如果沒有需要的話,你可以關閉這個功能,以免佔用硬盤空間。標點符號、阿拉伯數字的轉換、中英文之間是否有空格等,這些根據自己的實際使用習慣來調整,其他的預設就可以。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

CapsWriter比較好用的是支援中文熱詞功能,識別率還挺高的。完全依賴本地離線模型的工具是有這個問題,就是你不太好去擴充詞庫,除非重新訓練模型。而熱詞功能就可以基本解決這個問題。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

同時它還有英文熱詞的功能,但個人感覺識別準確度跟中文還是有一點差距。也不知道是我的英文不準,還是模型本來就側重於中文。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

還有一些不屬於識別錯誤,但是是常用詞或者專有名詞替換的,也可以在hot-rule.txt里進行設置。但不管怎麼樣,目前肯定是達不到百分百的正確率的,還是需要自己進行一些後期的校對。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

在服務端跟客戶端窗口,也都可以看到每一句的識別結果。這篇文章也有一部分,我是使用語音識別來進行輸入的。當然,每一句每一個詞我都有進行校對,而且它也並不是AI生成文章,只是換成了語音輸入而已。以目前的使用體驗來看,我覺得比不少的聯網或者收費工具都要來的好用,更別說手機上了。手機不管是各家的輸入法,還是什麼王者榮耀的語音識別,正確率基本都是零,每一句話都有好幾個的錯誤,真的是不堪大用。

AI時代到來,分享一款好用的本地語音輸入工具_新浪眾測

這個項目的配置要求也非常低,僅對服務端要求64位WIN10,佔用4G左右的系統內存。客戶端可以使用32位的win7,局域網本地IP連接。另外,它還有什麼關鍵字、日誌、視頻文件轉錄等功能,但我覺得這並不是它的核心需求和強項。

感謝大家的觀看點讚和關注,有什麼疑問和需求,可以在評論區里交流,我們下期再見。