太火了！我在外灘大會玩Deepfake，想騙過機器人結果……

09月07日 12:39 新浪網 news-china-auto-hilite

白小交發自凹非寺

量子位 | 公眾號 QbitAI

我在外灘大會上生成Deepfake，結果沒騙過機器人……

反倒啪的一下，秒秒鍾就被找出？！

而機器人手中的神兵利器，僅僅只是我們日常都在使用的手機攝像頭。

實在是太火了！

Deepfake攻防，成為整個外灘大會現場最受關注的展區之一；相關討論也成為整個外灘大會最火熱的論壇，現場可以說是人山人海人擠人。

之所以如此受關注，也有大眾已知的原因。

這不最近DeepFake可以說是來勢洶洶，用這項AI技術犯罪的嚴重程度被網民直呼是「南韓N號房再現」。

剛提到的這場「全球Deepfake攻防挑戰賽」，吸引了全球26個國家和地區，2200+技術研究者對抗Deepfake威脅。在這期間，大賽隊伍中科院自動化所表示，將開源AI模型供大家免費使用，一時間引發全網朋友共鳴。

如今在外灘大會，終於有機會親自體驗這個Deepfake從生成到對抗的流程是什麼樣，看AI如何幫助普通人識別偽造風險。

這背後究竟還有哪些細節？除此之外還有哪些亮點，我們一起來看看。

探展螞蟻數科

那麼首先就來看螞蟻數科里這個超火的展區：Deepfake攻防。

整個過程你唯一需要做的，就是站在一個定點，由iPad拍攝人臉。

然後，就由現有AI模型來生成的換臉圖or影片。

Deepfake就由機械臂來從三組圖+一個影片中找出真照片。可以看到影片還是很逼真的，這下誰能證明「我不是我」。

由於是現場實時物理採集，機械臂手持智能手機打開相機拍照來收集數據，然後再進行一個識別的操作。

短短幾秒鍾的時間，bingo~機器人就識別出來了正確答案。

據現場工作人員介紹，在他們日常工作中，往往最快三秒就可以識別出來。

這背後是由天璣實驗室以及安全品牌ZOLOZ提供技術支持。

前者主要專注在可信數字身份這塊，自研了一套自動化生物識別測評體系。當前市面上70%的安卓手機，都要來到天璣實驗室經歷一番「毒打」。它也是Google全球唯一官方合作」安卓生物識別安全」檢測實驗室。

而後者，則是螞蟻數科旗下安全科技品牌ZOLOZ，現在在為中國、印尼、馬來西亞、菲律賓等14個國家和地區的70餘家合作夥伴提供技術服務，包括像端到端身份驗證、在線欺詐檢測以及持續風險監控服務等。

今年4月，他們推出了反Deepfake產品ZOLOZ Deeper。外灘大會展示的，正好是他們日常的真實業務場景——

幾十萬測試樣本，每月超20000次的攻防測評，模擬上百種偽造攻擊情況·····

同樣以直觀可感的方式展示出來的，還有他們的AI標註場景。

AI大模型生產流程通常包括三個步驟：採集-標註-合成。

首先是採集過程。

現場準備了一個模擬真實環境的沙盤，我們通過控制機械臂來對沙盤中任意位置or場景，進行實時拍照。

這時候圖像數據也就被傳輸到系統當中去，這也就完成了數據生產的起點。

隨後就是標註這一步驟，不再是傳統依靠純人工的方式，而是依靠自研的多模態大模型來AIGD（AI生成數據）。

模型會自動完成目標檢測並標註、語義分割、文本描述、深度檢測、3D建模等任務。

人類主打一個協助審核的作用，比如在文本描述階段，需要靠人工來審核識別目標的細節，比如物體的顏色、形狀等等。

最後就來到數據合成。核心特點就是可控。既可以對單個物體編輯，也可以對整體場景把關。

這樣一來無需採集，打破原有真實條件限制，可持續地生產全新的數據。

而除了實景標註，旁邊還有個影片標註的模塊，只需對任意影片中的任意一幀進行採集，同樣也可以完成接下來的標註和合成操作。

這樣一套全鏈路生產體系，實測顯示，在同類結構和同類規模數據量的情況下，會讓標註效率提升40%以上。

除了智能化標註產品，螞蟻數科還配備了萬人的人工標註團隊，垂直專業領域同高階標註人才超過90%。

提到數據標註，當前市面上最具代表的莫過於Scale AI，科技圈當紅獨角獸，他最新完成近 10 億美元融資，估值升至 138 億美元。

不過同Scale AI不同的是，此次可以看到螞蟻數科還提供數據加工、合成服務。

比如在一些企業私域或者垂直領域，大量數據尚未公開沒有被充分挖掘。

結合螞蟻數科多年來場景和技術優勢，這時候除了幫助企業實現數據服務的「就地取材」，還可以針對性地數據泛化，比如像交通、政務、金融等垂直場景，合成更多高質量數據。

好了，以上Deepfake攻防與智能標註是此次螞蟻數科最具代表性的展區內容。

值得注意的是，這正好是當前業界正在熱議也是最受關注的兩個問題：

當AI應用氾濫，如何應對造假問題；大模型加速落地，高質量數據缺失又應該如何解決？

如今大模型時代來到應用時期，更多風險和問題由此暴露出來，給企業帶來了不少挑戰。

對於本身在產業深耕多年的螞蟻數科，其實這次也帶來了他們的解決方案。

這藏在外灘大會上，藏在這兩個最受關注的產品之中。

他們整個業務佈局，可以這樣總結：從AI For Data到Data for AI。

從AI For Data到Data for AI

什麼是從AI For Data到Data for AI？要回答這個問題，需要從整個產業現狀開始看。

AI發展到現在，從模型驅動來到了數據驅動，而隨著數字化轉型的深入，企業生產經營實際上是數據的流通。技術與場景，AI與Data，從未像今天這樣如此契合。業務場景需要AI來提效，而高質量數據需要充分利用為給AI。

一邊是AI for data，利用AI來充分挖掘數據的價值，進行數據分析、判別等。

以風控場景為例，這是每個企業經營生產時都會面對的場景。

螞蟻數科搭建了一套決策式AI驅動的風控算法模型。引入像工商司法數據、財報數據、產業鏈數據、發票稅務數據、輿情數據等，來幫助企業做出高效準確的決策。

以往需要大量人力進行人肉風控，對於他們來說，理解管理訴求和快速決策布控非常具有挑戰性。而現在只需要AI這個決策輔助在手，運營新手面對再複雜的場景也能hold住了。

比如螞蟻數科與中鐵建的合作中，他們共建了一套「產業數據+AI模型」的產業風控平台，讓產業鏈的客商準入效率提升了至少50%。

一邊data for AI，高質量數據是訓練AI模型的基礎。AI驅動的數據服務-數據加工-數據標註於一體的方案，加速企業大量原始非結構化數據朝著高質量結構化數據的轉化。

除此之外，還有像蟻天鑒這樣的大模型安全產品，來保障大模型在訓練生產和使用過程中的安全可控可靠。

我們注意到，螞蟻數科已經形成ABC三大業務板塊：

首先是雲服務（Cloud+），幫助企業邁入數字化「上雲」階段，打造更強大的科技引擎；

第二塊是AI服務（AI+），以AI技術重構升級風控、營銷等場景效率，助力企業在大模型時代建立競爭優勢。

第三塊是區塊鏈服務（Blockchain+），通過科技構建產業信任，提升數字化協作效率，加速數據資產流通。

對於螞蟻數科來說，ABC中的「A」很重要，很明顯的指向是，此次螞蟻數科呈現出來的業務佈局「從AI For Data到Data for AI」，有三個特點：

產業、產業還是產業。用AI真實創造產業價值，解決實際問題。這同樣也是大模型應用最緊要的命題。

產業需要什麼樣的AI？

大模型發展到現在，人們對大模型的看法已經變了。

比如就從最近諸多行業問題與思考開始，圖像影片生成模型頻頻開卷，人們的目光不再聚焦於效果多麼驚豔，而是因為效果過於逼真，開始擔心背後的潛在隱憂；被「緩解高質量數據荒」的數據合成，結果Nature封面一個：Garbage in Garbage out，數據合成越多會導致語言模型崩潰，給這個新興行業趨勢澆了冷水……

以及關於ScallingLaws的討論，在行業應用的大模型，參數量到底在多少合適？真的是越來愈多，模型性能就會好嗎？

種種問題，甚至還導向了另一種傾向：大模型，是不是真的存在泡沫？

之所以能引起這樣的思考，其實也不難理解。

隨著大模型技術的發展和應用的深入，一方面人們逐漸意識到了大模型能力的邊界。模型的參數量不再作為模型能力的核心指標，高質量的數據流入才能保證模型高性能。

另一方面，大模型進入應用深水區。產業界對AI的需求，已經不僅僅是單純的技術追求，解決實際問題才是衡量大模型的唯一標準。

隨之而來的，就是場景中的諸多挑戰。

以數據問題為例，當前市面上通用大模型都是基於互聯網公開的數據集。他們雖然數量眾多、類別廣泛，但是無法保質保量，甚至大部分都是「髒」數據。

對於專業嚴肅的應用場景來說，一來更多高質量的行業數據是非公開的，又或者是企業內部自身的，這需要系統來統一調度和管理，還有一些非結構數據需要轉化；二來，對於大量公開的數據需要工程級別的清洗、標註，才能達到能使用訓練的水平。

因此看大模型落地千行百業，不能簡單看大模型的性能展示，而是說怎麼同產業的深度融合。

而本身就在產業有著長期投入的企業，他們有著天然的場景優勢，也最有可能將AI能力和影響力才能滲透進行業之中。

螞蟻數科，就是一個。