再融1.8億美元,這家AI影片平台成功打造首個完全由AI生成的虛擬形象
儘管電子郵件、通信軟件和文件共享等工具在當今快節奏、分佈式的職場環境中極具價值,但它們仍只是基礎的信息傳遞。
正因如此,影片正逐漸成為企業領域的一種強大新媒體,改變著工作場所的溝通和協作模式。通過在數字互動中融入印象深刻的視覺效果、語音語調或肢體語言,影片彌補了文本溝通的不足。
為了進一步挖掘這種媒體形式的價值,Synthesia的創始團隊在2017年構建了一個影片平台,使企業能夠充分利用影片進行業務溝通和知識共享,並在此過程中將任何員工轉變為影片創作者。
01.1分鐘項目速覽
1.項目名稱 :Synthesia
2.成立時間 :2017年4月
3.產品簡介 :
Synthesia提供AI影片生成平台,可使用120多種語言的可定製頭像和畫外音將文本轉換為專業影片。
4.創始人團隊 :
Victor Riparbelli:CEO,曾就讀於哥本哈根信息技術大學;
Steffen Tjerrild:COO,CFO,曾在史丹福大學攻讀金融學碩士學位;
Matthias Niessner教授:慕尼黑工業大學教授,併負責視覺計算實驗室;
Lourdes Agapito教授:倫敦大學計算機科學系3D視覺教授。
5.融資情況:
2017年10月1日,完成100萬美元的種子前輪融資;
2019年4月25日,完成由LDV Capital領投的310萬美元的種子輪融資;
2021年4月20日,完成由FirstMark領投的1250萬美元的A輪融資;
2021年12月8日,完成由Kleiner Perkins領投的5000萬美元的B輪融資;
2023年6月13日,完成由Accel領投的9000萬美元的C輪融資;
2025年1月15日,完成由New Enterprise Associates領投的1.8億美元的D輪融資。
02.從「荷李活」到「企業通信」
故事源於Victor Riparbelli偶然間讀到了Matthias Niessner教授所撰寫的一篇有關AI在影片生成應用方面的開創性論文,論文中的內容令他深受啟發,他意識到這可能預示著媒體制作流程的一次革命。
不久後,Victor Riparbelli與Steffen Tjerrild、Matthias Niessner教授、Lourdes Agapito教授攜手創辦了Synthesia公司,嘗試將這篇論文的學術成功轉化為商業應用,這無疑是一次學界與業界的強強聯手。
「讓懷揣創意的16歲少年,僅憑臥室中的一台設備,就能拍出荷李活級別的電影」成為了該公司的願景。
在其他企業還在利用AI打造如Snapchat濾鏡這類工具時,Synthesia就已經憑藉一款AI配音工具嶄露頭角 ,該工具運用計算機視覺技術使不同語言的嘴部動作更加自然逼真,同時也為公司帶來了首批收益。

後來,Synthesia發現全球有數十億人渴望製作影片,卻因為不懂攝影技巧和有限的預算,始終不知從何入手。
也是在這時,Synthesia意識到生成式AI影片的真正目標客戶,並非已有影片製作能力的人群,而是那些在工作中需要影片但缺乏資源的人。
有了明確的方向後,Synthesia發明了一款雖與專業攝像機相比質量稍遜一籌,但價格更親民、操作更簡便的產品,因此許多業餘愛好者都願意為此付費。
現如今,Synthesia已完全成為了面向企業的AI影片平台。
03.領先的企業通訊軟件
從AI語音起家的Synthesia,轉變發展方向後,其在多方面已經遙遙領先,成為業內大受企業歡迎的AI影片平台。 Synthesia的功能主要體現在AI頭像、AI語音和影片編輯方面 。
AI頭像
Synthesia可以創建自定義頭像,並提供超過150種不同風格、膚色、性別和年齡的AI人物形象。

用戶也可以對其進行外觀和服裝等方面的調整,讓虛擬形象更加貼合自身需求和創意。整個過程用戶都可以使用手機攝像來完成。
現在, Synthesia已經從單純的AI頭像發展到支持AI半身像 ,身體姿勢和手勢也成為了虛擬形象的一部分。其最新推出的第四代AI虛擬形象Expressive Avatars更是能夠準確傳達情緒。
AI語音
Synthesia作為領先的企業通訊軟件,其語音效果幾乎可以以假亂真,如同真人的聲音質量、語調、情緒表達。
用戶可以將自己的英語聲音複製並用於29種不同語言,僅需5-10分鐘的錄音時間 。
錄音完成後,就能用自己的聲音創建多種語言的個性化內容,與不同語言背景的聽眾建立更緊密的聯繫。
該軟件支持超過120種語言和口音,幾乎涵蓋了全球所有主要的語言和方言。各個國家和地區的用戶都可以很輕鬆地製作不同語言版本的影片,在全球傳播影片內容。
影片編輯
Synthesia可以將文字想法、PPT、PDF和網站按照預先設置的模板轉換為影片,無需攝像機、馬克風和演員, 大大降低了影片製作的門檻,節省了時間和成本 。
該軟件內置有300多個影片模板,用戶可以對其模板進行選擇和修改,還能對影片中的AI頭像、背景圖、語音速度、語調等參數進行調整,甚至連演講者的面部表情都可以微調。
更重要的是,用戶可以為團隊創建一個共享空間,Synthesia支持合作製作影片並實時編輯。

目前Synthesia官方已經推出了Synthesia 2.0,可以立刻對用戶完成的錄像影片進行編輯、轉錄畫外音、匹配屏幕截圖,並具有自動縮放效果以強調關鍵動作等功能。
2.0的翻譯功能更加完善,用戶只需要使用Synthesia更新一條影片,後面觀看的影片就會自動翻譯成觀看者的語言。
Synthesia 2.0從頭開始徹底改造了影片製作的每一個步驟,致力於幫助企業大規模創建和分享AI生成的影片。
04.探索AI虛擬形象
Synthesia平台的核心在於其AI虛擬形象, 現已有超過20萬人使用其225個虛擬形象創建了超過1800萬個影片演示,並以130多種語言發佈 。
最初,Synthesia為娛樂行業開發了對口型和配音工具。但因為這項技術的質量門檻較高且需求不大,於是公司在2020年改變了方向,為企業客戶推出了第一代虛擬形象。
和後續版本比較起來,第一代產品稍顯笨重,從各方面來看都很稚嫩。

如今,該公司已經推出了第四代AI虛擬形象Expressive Avatars,這也是世界上首個完全由AI生成的虛擬形象。這些虛擬形象由EXPRESS-1模型提供支持,能夠實現逼真的表演。
具體來說,EXPRESS-1模型利用大型預訓練模型作為主幹推動性能,並結合擴散技術模擬複雜的多模態分佈。它能夠實施預測每一個動作和麵部表情,與口語的時間、語調和重音無縫對接。
Expressive Avatars如今能夠像真正的演員一樣,以正確的語調、肢體語言和口型同步演繹劇本,成為「數字演員」。

Melissa Heikkilä分享了她製作數字替身的經歷。
她站在一塊綠幕前,按照要求轉動頭部和眼睛,這樣系統才能識別其準確的膚色和麵部特徵。接著她被要求說「All the boys ate a fish」這句話,這樣系統就能捕捉到形成元音和輔音所需的所有嘴部動作。甚至連閑坐的鏡頭也成為了訓練AI模型的數據。
然後,Melissa Heikkilä被要求用正常、鼓勵、生氣、興奮等不同的語氣讀一段劇本,以便用這些語音樣本來複製聲音。
總之, AI識別的面部動作、微表情、頭部傾斜、眨眼、聳肩和揮手等數據點越多,虛擬形象就越逼真 。
Synthesia表示,在最新的1.8億美元融資的支持下,希望在不久的將來能創造出可以在虛擬空間中行走和移動的全身化身。

不過,隨著虛擬形象技術的不斷進步,AI不僅重新定義了個性化表達的方式,也開始引發了更深層次的社會討論。同時,與之相關的AI語音、AI影片技術的飛速發展也帶來了有關隱私的擔憂。
一方面,公眾越來越意識到AI生成的內容正在蓬勃發展,並可能成為傳播虛假信息的強大工具。
另一方面,目前仍不清楚深度偽造是否被大規模用於傳播虛假信息,以及它們是否會廣泛地改變人們的信念和行為。
AI監管仍不完善,科技行業對內容來源的核實工作也還處於起步階段。因此消費者在享受科技發展的同時,更應該保持警惕,以免迷失在海量信息中。
參考鏈接:
1. https://www.cnbc.com/2025/01/15/ai-video-platform-synthesia-doubles-valuation-to-2point1-billion.html
2.https://www.synthesia.io/?r=0
本文來自微信公眾號「元宇宙之心MetaverseHub」,作者:元宇宙之心,36氪經授權發佈。