OpenAI 更新《準備框架》：聚焦識別和緩解具體風險、細化能力分類，更好應對 AI 安全挑戰

IT之家 4 月 16 日消息，OpenAI 公司今天（4 月 16 日）發佈博文，宣佈為更好追蹤和應對前沿 AI 能力可能帶來的嚴重危害風險，發佈新版《準備框架》（Preparedness Framework）。

IT之家註：《準備框架》是 OpenAI 在開發和部署環節，用於評估 AI 模型安全性的內部系統。

新框架通過更聚焦的方式，識別並緩解具體風險，同時強化風險最小化的要求，為組織如何評估、治理和披露安全措施提供明確指引。OpenAI 還承諾，隨著技術進步，將投入更多資源，確保準備工作更具行動力、嚴謹性和透明度。

新框架為高風險能力設定了清晰的優先級標準，通過結構化的風險評估流程，判斷某項前沿能力是否可能導致嚴重危害。每項能力根據定義標準被歸類，並追蹤符合五項關鍵標準的能力。

此外，框架引入了更細化的能力分類，包括追蹤類別（Tracked Categories）、網絡安全能力（Cybersecurity capabilities）和 AI 自我改進能力（AI Self-improvement capabilities）等。

OpenAI 認為，這些領域將帶來 AI 在科學、工程和研究中最具變革性的益處。同時，新增的研究類別（Research Categories）涵蓋可能造成嚴重危害但尚未達到追蹤標準的領域，如長距離自主性（Long-range Autonomy）、故意低表現（Sandbagging）和自主複製與適應（Autonomous Replication and Adaptation）等。

框架進一步明確了能力等級，簡化為「高能力」（High capability）和「關鍵能力」（Critical capability）兩個門檻。無論哪一等級，在開發和部署前均需採取足夠的安全措施，以降低嚴重危害風險。

OpenAI 內部的安全顧問小組（Safety Advisory Group）負責審查這些措施，並向領導層提出建議。此外，框架引入了可擴展的評估機制，支持更頻繁的測試，並通過詳細的 Safeguards Reports 報告安全措施的設計強度和驗證效果。若其他 AI 開發者發佈缺乏同等安全措施的高風險系統，OpenAI 可能調整自身要求，但會先確認風險形勢變化，公開承認調整，確保不增加整體風險。

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。