以數字人入駐直播帶貨,憑什麼劉強東敢第一個下場?

文/林三千 

數字人的大規模商業化,京東在今晚吹響了號角。

今天傍晚,採用劉強東形象的「采銷東哥」AI數字人與觀眾見面,在京東家電家居、京東超市采銷直播間亮相。直播間里,采銷東哥AI數字人談笑自若,講起自己運動和烹飪的體驗,又對直播帶貨的大屏電視、草莓和玉米滔滔不絕。

直播間的網民質疑就是真人直播,細看采銷東哥AI數字人,不僅複原了劉強東語速快和連音多的口頭習慣,還複刻了他搓手指、略微仰頭的習慣動作和身體姿態,直播中還有非常自然地看手機的動作。說起大屏電視,「采銷東哥」對技術參數如數家珍,說到玉米和草莓,又對口味特點和原產地氣候瞭如指掌。數字人彷彿具備了百科全書版的數字大腦,完美勝任了「首席采銷」的工作。

京東官方消息顯示,「采銷東哥」AI數字人是由京東雲言犀製作的高逼真大姿態數字人,憑藉多角色、個性化的閑時帶貨能力,言犀數字人已服務了超過4000家品牌直播間。采銷東哥AI數字人的此次亮相,更像是一次廣而告之:數字人技術已經成熟,足以勝任品類直播的工作。其實,在春節閑時直播中,京東雲言犀數字人就曾賣出過4000萬元貨品,平均提升閑時直播轉化率超30%。

實際上,「采銷東哥」AI數字人亮相直播背後,還代表著京東在技術普惠、低價戰略上的深一度實踐,將關鍵技術開放給生態鏈上下遊,以技術突破賦能業務實際問題,促進產業鏈提質增效。

劉強東的數字人為何這麼「真」

聽過劉強東演講的人一定印象深刻。他講話很少猶疑,讓人覺得自信堅定;同時平易近人,用簡單的詞彙講述波瀾壯闊的故事。講完一段,他還會拋出事先準備的金句。這時,觀眾會突然爆發出訪問節目現場般的笑聲和掌聲。

這次直播的數字人就還原出劉強東真人的風采:不僅聲音惟妙惟肖,說話的語調和習慣也別無二致。也難怪有人在微博上發問:數字人是怎麼做到這麼「真」的?

京東雲言犀技術團隊透露,要讓數字人逼真,首先需要還原出劉強東的聲音。言犀團隊原本打算使用他在2017年的一段演講音頻作學習素材,但經過測試發現:當時演講的語氣用於直播帶貨過於正式。因此,言犀團隊又錄製了一段劉強東30分鐘的閑談,讓他暢聊自己的旅行經歷。

這段神采飛揚的聲音就成為底本,提取出聲學特徵後,通過言犀語音大模型合成出人工語音。其實,言犀團隊已經可以做到最短使用6秒素材,就能複現一個真人的聲音。而更長的聲音素材,無疑有助於捕捉更多豐富的細節。

複現出音色以後,還需要捕捉聲音的「副語言」。副語言是人們說話的習慣,比如語速、語調、重音、倒吸氣。即使音色變化,比如感冒或者電話通話,憑藉副語言也能辨認出說話的人。如果沒有副語言,聲音就會缺乏情緒、顯得過於「正確」和冷冰冰。

劉強東講話也有自己的副語言:語速快、連音多、吐字較輕。例如「跟著」的「著」字經常被一筆帶過。「時間」中的「sh」會有更重的鼻音。後鼻音有時會被吞掉,變成前鼻音。他講話也很少有輔助詞,句子間銜接順暢,只會在尋求認同時用「啊」來銜接。說到重點時,他還會加重重音,讓人不自覺地豎起耳朵。

捕捉這些副語言的技術,被稱為「風格遷移」:把原本聲音的特徵遷移到人工合成的聲音中。這些副語言原本分佈稀疏,大模型不容易捕捉到規律。但言犀團隊將聲音樣本的重音、語調等拆解成音素,讓模型能更清晰地注意到它們。在文本層面,NLP(自然語言處理)模型則會根據真人習慣添加口頭語,讓聲音更像真人。

「東哥同款」數字人

讓小商家也用得起

給企業管理者做數字人的其實並非少數。2021年,黃仁勳的數字分身就曾亮相GTC,三個月後才被發現是數字人。360的周鴻禕和自己的數字人在烏鎮對談,商湯的湯曉鷗數字人還在舞台上喝水,流暢的大幅動作技驚四座。

讓企業管理者的數字人進入帶貨直播間的,京東還是第一家。原因非常簡單:企業管理者的數字人往往要經過「精雕細琢」,5分鐘的影片背後可能是一個月的苦工,否則很容易被觀眾分辨出差異。而這些動用龐大計算資源的數字人,無法承受住成百上千商家同時直播、實時演算。

因此,「采銷東哥」AI數字人亮相京東采銷直播間,更像是一次宣言:京東的數字人技術已經大規模商用。這些能讓劉強東形象以假亂真的數字人,讓小商家也都用得起。這成為一場向廣大商戶的宣告:「我用起來是這個效果,你們用起來也是這個效果。」

要讓數字人應用門檻不斷降低,言犀團隊著實下了一番苦功。首先是建立真人的形象。如果不考慮成本,目前最真實的方法是用光線追蹤做3D建模。由於人臉是不規則的平面,需要用上百萬個三角形去模擬,建立的模型還需要經過深度學習再做聲唇同步,計算量十分龐大。如果簡單地降低三角形的數量,又會讓表情變得呆板。

言犀團隊發明了一種方法:骨骼和肌肉用3D建模,這樣用少量三角形就能還原人體的大姿態動作,無論揮舞手臂還是頷首擺頭,都惟妙惟肖。人臉則在3D模型上採用2D渲染,能夠讓人臉保持高解像度,做出豐富表情也不變形,同時兼顧較低的渲染成本。

數字人直播的成本除了渲染,還有很大一部分帶寬成本。觀眾觀看數字人希望越清晰越好,但帶寬成本會讓商家難以承受。言犀團隊發現,人們觀看直播會更關注眼睛部分,對頭髮、肩膀等則沒那麼關注。因此,言犀數字人採用動態解像度,在數字人面部做局部高清:即使觀眾放大,眉毛也如髮絲般清晰、眼神依舊透亮。

這些兼顧直播效果和成本的技術,也運用在采銷東哥AI數字人上。觀看直播的人會發現,他在表達肯定和強調時會輕微頷首,表達堅定時會輕揮手臂、目視遠方,輕鬆交談時則輕微仰頭。這些小動作,在商家日常使用的數字人中也能夠複現。

京東雲言犀數字人能率先衝過商業化的「起點線」,離不開京東雲的技術導向:技術源於產業需求、曆練於產業場景、能產生產業價值。從研發開始,這些技術就不是為衝榜而生,不會關在實驗室里,而是要去業務場景經受檢驗。正如劉強東在不久前的內部信中所說:「技術為本,是相信技術終究會改變一切的決心」。

數字人直播

讓商家抓住技術紅利

數字人直播對京東並非技術秀場,而是錙銖必較的商業場景。截至2024年4月,已經有超過4000個品牌在京東使用數字人直播,用來接替真人完成閑時直播。它們能提升閑時轉化率超30%,成本卻不到真人直播的1/10。

春節就是典型的閑時直播場景:觀眾觀看時間分散、往往沒有明確購買目標。京東雲言犀數字人抓住春節時間,累計帶貨超過4000萬元。使用了言犀數字人以後,百威成交轉化率提升了48%,珀芙研成交轉化率則提升了458%。

可以說,數字人直播已經成為商家低成本營銷的必備手段。京東雲言犀數字人釋放出的技術紅利,幫助商家緊跟技術潮流、不被日漸提升的流量成本所淹沒。

據電商行業數據,在2023年,直播帶貨在電商的滲透率約為31.9%,成為零售的普遍形態。直播帶貨提供了更直觀的商品展示:讓觀眾能直接看到商品實物,聽主播介紹也比查看商品詳情頁更通俗易懂。晚歸的打工人、早起的寶媽,都可以打開直播間,一邊忙碌一邊等待自己心儀的商品出現。

然而,直播帶貨每場開播都有不小的成本,大約每場數萬元。這讓精打細算的品牌商家頭疼不已,有直播電商資深運營直言:「大部分品牌,過去兩年的直播都是虧損狀態」。不僅成本貴,真人主播還只能應付每天的黃金時間,背後選品、腳本、互動都要其他人配合。這樣高昂的成本,使得很多商家被排斥在直播帶貨之外。

京東雲言犀數字人則提供了低成本、一站式的直播帶貨方式。商家只需提供商品詳情頁鏈接,數字人就能自主學習商品特徵,完成所有工作流程,讓商家「一鍵開播」。即使商家0配置,數字人也能回答直播間內70%的常見問題;對於觀眾的推薦需求,數字人的應答準確率也達到90%以上。在前120秒內,觀眾普遍無法分辯數字人與真人的差異,大大提升了進入直播間觀眾的留存率。

「對預算有限的品牌來說,數字人直播是高性價比的選擇」,大寶京東渠道負責人袁航表示。也有商家說,數字人直播「播了就比不播強」。

「采銷東哥」AI數字人亮相采銷直播間,無疑是京東對低價主張的一次展示:京東采銷直播,是以減少商家營銷成本的方式,讓消費者拿到便宜好物,讓商家賺到合理利潤。而以數字人為代表的技術解決業務問題,並把自身的成熟實踐成果開放給更多夥伴,則是京東始終遵循的路徑。