用微信聊天記錄來做AI數字的你,開源了
就在這幾天一個項目火了,就是叫做weclone。

總的來說基於微信聊天記錄來生成你的數字分身,現在開源了整個項目的技術是使用python來完成的,並且支持阿里同義千問2.5,現在已經有8.7K收藏了。
這個項目的本質上其實並不那麼難:就是RAG知識庫的模型微調
利用用RAG知識庫的原理,將其微信聊天導入,再利用模型微調以及LORA的方式最終微調出自己的數字人。項目自帶了ASR與湯臣S,將其轉化為用戶自己的聲音。
項目預設使用Qwen2.5-7B-Instruct模型,LoRA方法對sft階段微調,大約需要16GB顯存
如下是整個項目的demo截圖,並且通過開源的AstrBot來完成微信、企業微信、飛書對接。

國內生活的最佳數字人記錄:微信聊天記錄
從個人數據來看,微信聊天記錄的確是我們最私密、最貼切自己個人記錄的知識庫了,個人數據是最詳細的。
我們通過別人的聊天記錄來判斷別人是什麼樣的人,或者看到別人內心是什麼樣的。
尤其是個人聊天記錄可以從不同的場景里進行分類,比如我因為有讀者的原因,就會有自己的粉絲微信號,去答覆讀者的消息。
而在生活中,又是一個一邊在做創業一邊愛健身的人,各類健身的朋友經常聚會。從這個項目衍生出來還可以生成企業工作的數字人,尤其是在釘釘或企業微信上,有不同類型的角色尤其是客服,就可以訓練這些數字人。
所以基於聊天記錄來成為數字人分身,是的確可行的。並且有知識庫以及微調的數字人,而不是一個通用的AI數字人,準確率將更高提高。

支持修改數字人的情景對話名稱,以及系統提示詞。將其設置為個人personal,而不是機器人。

weclone支持用PyWxDump提取微信聊天記錄(不支持4.0版本微信)。
可以先將手機的聊天記錄遷移(備份)到電腦,數據量更多一些。下載軟件並解密數據庫後,點擊聊天備份,導出類型為CSV,可以導出多個聯繫人(不建議使用群聊記錄),然後將導出的位於wxdump_tmp/export 的 csv 文件夾放在./dataset目錄即可,也就是不同人聊天記錄的文件夾一起放在 ./dataset/csv。
這個項目的擴展性
1.針對客服的數字人
企業裡面產品的客服是一個離職率比較高的職業,所以積累客服的話術與常見問題庫是尤其重要的。所以用微信聊天記錄複製數字人分身的概念就可以比較好的降低成本,並且再也不用去單獨整理客服的知識庫話術,聊天記錄本身就是知識庫。
2.針對營銷的數字人
針對銷售的聊天記錄,仍然可以當做話術庫來完成,將其不同客戶、涉及到不同行業的數字人來完成, 作為數字人分身的基礎。
這樣就不用擔心TO B 和TO C的客戶,還需要分成本來增加銷售營銷的內容培訓。
3.作為財務的數字人
在財務信息上,我們經常也會找到財務的常規問題,這就非常適合用數字人幫你替代就可以了,而這些微信聊天記錄就可以來自某個財務或幾個財務專員的數字人身份。
以此類推,可以看到微信聊天記錄所衍生出來的數字人有很多人,不過以前是找不到這些數據,現在微信聊天記錄是最好的個人數字分身知識庫,這就像我們推薦算法。
我們總可以看到不同微信下的推薦算法不一樣,就是因為算法比你還清楚你自己,而聊天記錄的分析,只要數據夠多,就可以分析成為自己的MBTI助手,從工作、到生活上。
進群加入數字人分身產品研發群,我們後續將分享在數字人搭建的一些產品設計案例,你也可以來親自參加開發。
本文來自微信公眾號「Kevin改變世界的點滴」(ID:Kevingbsjddd),作者:Kevin那些事情,36氪經授權發佈。