太火了!我在外灘大會玩Deepfake,想騙過機器人結果……

白小交 發自 凹非寺

量子位 | 公眾號 QbitAI

我在外灘大會上生成Deepfake,結果沒騙過機器人……

反倒啪的一下,秒秒鍾就被找出?!

而機器人手中的神兵利器,僅僅只是我們日常都在使用的手機攝像頭。

實在是太火了!

Deepfake攻防,成為整個外灘大會現場最受關注的展區之一;相關討論也成為整個外灘大會最火熱的論壇,現場可以說是人山人海人擠人。

之所以如此受關注,也有大眾已知的原因。

這不最近DeepFake可以說是來勢洶洶,用這項AI技術犯罪的嚴重程度被網民直呼是「南韓N號房再現」

剛提到的這場「全球Deepfake攻防挑戰賽」,吸引了全球26個國家和地區,2200+技術研究者對抗Deepfake威脅。在這期間,大賽隊伍中科院自動化所表示,將開源AI模型供大家免費使用,一時間引發全網朋友共鳴。

如今在外灘大會,終於有機會親自體驗這個Deepfake從生成到對抗的流程是什麼樣,看AI如何幫助普通人識別偽造風險。

這背後究竟還有哪些細節?除此之外還有哪些亮點,我們一起來看看。

探展螞蟻數科

那麼首先就來看螞蟻數科里這個超火的展區:Deepfake攻防。

整個過程你唯一需要做的,就是站在一個定點,由iPad拍攝人臉。

然後,就由現有AI模型來生成的換臉圖or影片。

Deepfake就由機械臂來從三組圖+一個影片中找出真照片。可以看到影片還是很逼真的,這下誰能證明「我不是我」。

由於是現場實時物理採集,機械臂手持智能手機打開相機拍照來收集數據,然後再進行一個識別的操作。

短短幾秒鍾的時間,bingo~機器人就識別出來了正確答案。

據現場工作人員介紹,在他們日常工作中,往往最快三秒就可以識別出來。

這背後是由天璣實驗室以及安全品牌ZOLOZ提供技術支持。

前者主要專注在可信數字身份這塊,自研了一套自動化生物識別測評體系。當前市面上70%的安卓手機,都要來到天璣實驗室經歷一番「毒打」。它也是Google全球唯一官方合作」安卓生物識別安全」檢測實驗室。

而後者,則是螞蟻數科旗下安全科技品牌ZOLOZ,現在在為中國、印尼、馬來西亞、菲律賓等14個國家和地區的70餘家合作夥伴提供技術服務,包括像端到端身份驗證、在線欺詐檢測以及持續風險監控服務等。

今年4月,他們推出了反Deepfake產品ZOLOZ Deeper。外灘大會展示的,正好是他們日常的真實業務場景——

幾十萬測試樣本,每月超20000次的攻防測評,模擬上百種偽造攻擊情況·····

同樣以直觀可感的方式展示出來的,還有他們的AI標註場景。

AI大模型生產流程通常包括三個步驟:採集-標註-合成。

首先是採集過程。

現場準備了一個模擬真實環境的沙盤,我們通過控制機械臂來對沙盤中任意位置or場景,進行實時拍照。

這時候圖像數據也就被傳輸到系統當中去,這也就完成了數據生產的起點。

隨後就是標註這一步驟,不再是傳統依靠純人工的方式,而是依靠自研的多模態大模型來AIGD(AI生成數據)

模型會自動完成目標檢測並標註、語義分割、文本描述、深度檢測、3D建模等任務。

人類主打一個協助審核的作用,比如在文本描述階段,需要靠人工來審核識別目標的細節,比如物體的顏色、形狀等等。

最後就來到數據合成。核心特點就是可控。既可以對單個物體編輯,也可以對整體場景把關。

這樣一來無需採集,打破原有真實條件限制,可持續地生產全新的數據。

而除了實景標註,旁邊還有個影片標註的模塊,只需對任意影片中的任意一幀進行採集,同樣也可以完成接下來的標註和合成操作。

這樣一套全鏈路生產體系,實測顯示,在同類結構和同類規模數據量的情況下,會讓標註效率提升40%以上。

除了智能化標註產品,螞蟻數科還配備了萬人的人工標註團隊,垂直專業領域同高階標註人才超過90%。

提到數據標註,當前市面上最具代表的莫過於Scale AI,科技圈當紅獨角獸,他最新完成近 10 億美元融資,估值升至 138 億美元。

不過同Scale AI不同的是,此次可以看到螞蟻數科還提供數據加工、合成服務。

比如在一些企業私域或者垂直領域,大量數據尚未公開沒有被充分挖掘。

結合螞蟻數科多年來場景和技術優勢,這時候除了幫助企業實現數據服務的「就地取材」,還可以針對性地數據泛化,比如像交通、政務、金融等垂直場景,合成更多高質量數據。

好了,以上Deepfake攻防與智能標註是此次螞蟻數科最具代表性的展區內容。

值得注意的是,這正好是當前業界正在熱議也是最受關注的兩個問題:

當AI應用氾濫,如何應對造假問題;大模型加速落地,高質量數據缺失又應該如何解決?

如今大模型時代來到應用時期,更多風險和問題由此暴露出來,給企業帶來了不少挑戰。

對於本身在產業深耕多年的螞蟻數科,其實這次也帶來了他們的解決方案。

這藏在外灘大會上,藏在這兩個最受關注的產品之中。

他們整個業務佈局,可以這樣總結:從AI For Data到Data for AI。

從AI For Data到Data for AI

什麼是從AI For Data到Data for AI?要回答這個問題,需要從整個產業現狀開始看。

AI發展到現在,從模型驅動來到了數據驅動,而隨著數字化轉型的深入,企業生產經營實際上是數據的流通。技術與場景,AI與Data,從未像今天這樣如此契合。業務場景需要AI來提效,而高質量數據需要充分利用為給AI。

一邊是AI for data,利用AI來充分挖掘數據的價值,進行數據分析、判別等。

以風控場景為例,這是每個企業經營生產時都會面對的場景。

螞蟻數科搭建了一套決策式AI驅動的風控算法模型。引入像工商司法數據、財報數據、產業鏈數據、發票稅務數據、輿情數據等,來幫助企業做出高效準確的決策。

以往需要大量人力進行人肉風控,對於他們來說,理解管理訴求和快速決策布控非常具有挑戰性。而現在只需要AI這個決策輔助在手,運營新手面對再複雜的場景也能hold住了。

比如螞蟻數科與中鐵建的合作中,他們共建了一套「產業數據+AI模型」的產業風控平台,讓產業鏈的客商準入效率提升了至少50%。

一邊data for AI,高質量數據是訓練AI模型的基礎。AI驅動的數據服務-數據加工-數據標註於一體的方案,加速企業大量原始非結構化數據朝著高質量結構化數據的轉化。

除此之外,還有像蟻天鑒這樣的大模型安全產品,來保障大模型在訓練生產和使用過程中的安全可控可靠。

我們注意到,螞蟻數科已經形成ABC三大業務板塊:

首先是雲服務(Cloud+),幫助企業邁入數字化「上雲」階段,打造更強大的科技引擎;

第二塊是AI服務(AI+),以AI技術重構升級風控、營銷等場景效率,助力企業在大模型時代建立競爭優勢。

第三塊是區塊鏈服務(Blockchain+),通過科技構建產業信任,提升數字化協作效率,加速數據資產流通。

對於螞蟻數科來說,ABC中的「A」很重要,很明顯的指向是,此次螞蟻數科呈現出來的業務佈局「從AI For Data到Data for AI」,有三個特點:

產業、產業還是產業。用AI真實創造產業價值,解決實際問題。這同樣也是大模型應用最緊要的命題。

產業需要什麼樣的AI?

大模型發展到現在,人們對大模型的看法已經變了。

比如就從最近諸多行業問題與思考開始,圖像影片生成模型頻頻開卷,人們的目光不再聚焦於效果多麼驚豔,而是因為效果過於逼真,開始擔心背後的潛在隱憂;被「緩解高質量數據荒」的數據合成,結果Nature封面一個:Garbage in Garbage out,數據合成越多會導致語言模型崩潰,給這個新興行業趨勢澆了冷水……

以及關於ScallingLaws的討論,在行業應用的大模型,參數量到底在多少合適?真的是越來愈多,模型性能就會好嗎?

種種問題,甚至還導向了另一種傾向:大模型,是不是真的存在泡沫?

之所以能引起這樣的思考,其實也不難理解。

隨著大模型技術的發展和應用的深入,一方面人們逐漸意識到了大模型能力的邊界。模型的參數量不再作為模型能力的核心指標,高質量的數據流入才能保證模型高性能。

另一方面,大模型進入應用深水區。產業界對AI的需求,已經不僅僅是單純的技術追求,解決實際問題才是衡量大模型的唯一標準。

隨之而來的,就是場景中的諸多挑戰。

以數據問題為例,當前市面上通用大模型都是基於互聯網公開的數據集。他們雖然數量眾多、類別廣泛,但是無法保質保量,甚至大部分都是「髒」數據。

對於專業嚴肅的應用場景來說,一來更多高質量的行業數據是非公開的,又或者是企業內部自身的,這需要系統來統一調度和管理,還有一些非結構數據需要轉化;二來,對於大量公開的數據需要工程級別的清洗、標註,才能達到能使用訓練的水平。

因此看大模型落地千行百業,不能簡單看大模型的性能展示,而是說怎麼同產業的深度融合。

而本身就在產業有著長期投入的企業,他們有著天然的場景優勢,也最有可能將AI能力和影響力才能滲透進行業之中。

螞蟻數科,就是一個。