人人可做提示工程師！Claude上新：一鍵生成、測試和評估prompt

07月10日 12:19 新浪網 news-china-auto-hilite

機器之心報導

編輯：陳陳、小舟

不會寫 prompt 的看過來。

在構建 AI 應用時，prompt 質量對結果有著重大影響。但製作高質量的 prompt 具有挑戰性，需要研究者深入瞭解應用需求，並具備大型語言模型方面的專業知識。為了加快開發速度並改善結果，AI 初創公司 Anthropic 簡化了此流程，可以讓用戶更輕鬆地製作高質量的 prompt。

具體來說，研究者為 Anthropic Console 添加了新功能，可以生成、測試和評估 prompt。

Anthropic 提示工程師 Alex Albert 表示：這是他們過去幾週投入了大量工作才得到的成果，現在 Claude 在提示工程（Prompt Engineering）方面表現得非常好。

難寫的 prompt，交給 Claude

在 Claude 中，寫一個好的 prompt 就像描述任務一樣簡單。控制台提供了一個內置的 prompt 生成器，由 Claude 3.5 Sonnet 提供支持，允許用戶描述任務並讓 Claude 生成高質量的 prompt。

生成 prompt。首先點擊 Generate Prompt，進入 prompt 生成界面：

然後輸入任務描述，Claude 3.5 Sonnet 將把任務描述轉換為高質量的 prompt。例如「撰寫一個用於審查入站消息的 prompt…… 」，點擊生成 prompt 就可以了。

生成測試數據。如果用戶有了 prompt，可能需要一些測試用例來運行它。Claude 可以生成那些測試用例。

用戶可以根據需要修改測試用例，並一鍵運行所有測試用例，還可以查看並調整 Claude 對每個變量生成要求的理解，以實現對 Claude 生成測試用例更細粒度的控制。

這些功能讓優化 prompt 變得容易，因為用戶可以創建 prompt 的新版本並重新運行測試套件以快速迭代和改進結果。

此外，Anthropic 還按照 5 分製為 Claude 響應質量設置了評分。

評估模型。如果用戶對 prompt 感到滿意，之後可以在「評估」選項卡中一次針對各種測試用例運行它。用戶可以從 CSV 導入測試數據，也可以直接使用 Claude 為用戶生成合成測試數據。

比較。用戶還可以在測試用例中相互測試多個 prompt，並對更好的響應進行評分，以跟蹤哪個 prompt 表現最佳。

AI 博主 @elvis 表示：Anthropic Console 是一項出色的研究，其自動化設計和優化 prompt 的過程可以節省大量時間。雖然生成的提示可能並不完美，但給了用戶一個快速迭代的起點。此外，生成測試用例功能也很有幫助，因為開發者可能沒有可供測試的數據。

看來，以後寫 prompt 這個活，可以交給 Anthropic 了。

瞭解更多內容，請查看文檔：https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview