傑出青年中關村獎獲得者陳愷：開展研究防止大模型「被催眠」

2023年度北京市科學技術獎11月19日正式公佈。中國科學院信息工程研究所研究員陳愷等8位青年科學家榮獲北京市傑出青年中關村獎。

傑出青年中關村獎旨在獎勵具有引領未來科技發展巨大潛力的青年科學家。陳愷的研究方向為信息安全，他的研究可以助力揪出手機中的惡意APP。目前，他正致力於避免大模型「被催眠」，使它們更安全地提供服務。

中國科學院信息工程研究所研究員陳愷。受訪者供圖

設計智能算法可在物理世界進行安全防禦

頗具未來感的自動駕駛場景，如今已出現在人們生活中，但其中的風險隱患仍需注意。

陳愷說，由於智能算法存在某種缺陷，導致人眼看到的內容和機器看到並理解的內容不同。舉例來說，如果攻擊者在限速牌上畫幾個點或者圈，人能理解這還是限速標識，但機器可能會認為這是前行標識，導致自動駕駛出錯。

「傳統研究攻擊時，通常只能在電腦的模擬環境中進行，很難在現實中還原。因為攻擊樣本的點在顏色、位置上有特殊要求，打印機存在色差，將模擬環境中的攻擊樣本直接打印出來很難攻擊成功。另外也需要考慮到汽車在運動，攻擊樣本需要在不同的距離、角度以及光照環境下發揮作用，這個也很不容易。」

除了視覺，聽覺也一樣。人的耳朵聽到的聲音跟機器識別出來的並不相同。他舉例，車主將汽車調成自動駕駛模式後，可能在休息時聽音樂、看電影。如果音樂中被植入了一點噪音，人的耳朵可能感覺不到，但會被機器識別成一些命令，從而可能進行打開車門、錯誤導航等操作，導致車輛出現事故。

面對這些問題，陳愷設計了有效的防禦方法，促進了我國信息安全領域的技術進步。

目前，他正在進行人工智能安全方面的研究。「大模型在回答問題時，不應回答違反法律或者倫理道德的話，比如它不應回答如何搶銀行的問題。但最近人們發現，通過一些特殊的引導語句，會使得大模型陷入‘越獄’狀態。‘越獄’類似於人們常理解的‘催眠’，進入該狀態後，大模型會說出不該說的話。」陳愷正在與相關企業合作，研究將大模型的行為變得更加規範，使其應用更加安全。

揪出手機中的假冒APP

陳愷還突破了未知惡意代碼高效檢測的難題。

他說，這些技術可以幫助企業和用戶檢測出手機中的敏感文件。此前，他們研發的系統就發現了一些假冒微信的APP。比如正常微信圖標上有兩個對話氣泡，一個大、一個小，假冒APP的圖標將兩個氣泡調換位置，很多用戶不會注意到這個細節，就可能上當。一旦用戶下載了假冒的社交APP或者銀行APP，輸入用戶名和密碼後會泄露隱私，造成財產等損失。

他研發的系統可以在多種情況下檢測出惡意代碼。例如，在用戶層面，如果用戶在手機上點擊惡意文件的下載鏈接，這個系統可以檢測對應的文件是否存在安全問題。在應用市場層面，他研發的系統可以在軟件上架之前進行大規模檢測。

新京報記者張璐

編輯樊一婧校對劉軍