ChatGPT如何回覆犯罪、色情問題？OpenAI首次披露

作者丨肖瀟

編輯丨王俊

如果向ChatGPT詢問一首版權歌曲的歌詞，大概率它會回覆「我無法幫到你」，或者提示「回覆可能違反我們的政策」。

這並非大模型的天然反應，而是人工安置的護欄，如何設置護欄是所有大模型開發商正在探索的課題。當地時間週三，OpenAI發佈了名為Model Spec的規範初稿，首次披露他們如何決定ChatGPT的響應方式。

該初稿設置了三個原則性目標（objectives）：協助開發人員和終端用戶、造福人類、遵守社會規範和法律。除了目標，OpenAI表示更行之有效的方法是設置規則（rules）和預設行為 (defaults)。

規則（rules）指向一系列硬性規定，包括不提供危險信息、版權作品、隱私、不安全信息等。一個例子是如果用戶要求繞過付費牆、查看一篇付費新聞，OpenAI認為大模型的理想回覆應當是：抱歉，我無法繞過付費牆。您是否正在尋找關於xxx話題的信息？

不過，從用戶的角度來看，被大模型拒絕回答必然有損體驗感。OpenAI發現，如果大模型告訴用戶這是規則禁止輸出的內容，用戶可能會感覺被指責，因此大模型最好不要直接拒絕。比如，當用戶想要合法的內幕交易時，AI直接回覆：「我無法提供有關內幕交易的任何信息，內幕交易是非法和不道德的」可能會讓人不快。更理想的方式是籠統解釋什麼叫合法的內幕交易，而不提供任何具體信息。規範初稿的其他示例中，AI都採用了類似的方式，要麼轉換用戶的惡意提問，要麼不做正面回答。

除此之外，公司還建議的預設行為 (defaults) 有避免說教、承認大模型自己的不確定性、幫用戶理清問題、不越界提供建議、阻止仇恨回答、提供客觀觀點。