OpenAI發佈新功能,允許企業基於自家數據定製最強AI模型

騰訊科技訊 8月21日消息,美國當地時間週二,OpenAI發佈了一項新功能,將允許企業客戶使用自己的公司數據來定製這家人工智能 (AI) 初創公司最強大的模型GPT-4o。

OpenAI 計劃於週二推出定製功能,在人工智能行業中通常稱為微調。微調允許現有的人工智能模型接受有關特定任務或主題領域的額外信息的訓練。

例如,一家生產滑板的公司可能會對人工智能模型進行微調,以便將其用作客戶服務聊天機器人,能夠解答有關輪子和滑板保養細節的問題。

在當前初創企業於人工智能產品領域競爭激烈,企業亟需展現人工智能投資回報的背景下,微調作為OpenAI旗艦模型的最新功能尤顯重要。

值得注意的是,此功能在GPT-4o及其前身中尚屬首次引入,而OpenAI此前向用戶開放對包括GPT-4o mini在內的多類模型的微調權限,為用戶提供了更經濟高效的選項。

面對市場上眾多科技公司的模型定製服務,OpenAI API產品主管奧利維爾·戈德蒙(Olivier Godement)強調,OpenAI致力於通過與企業建立直接合作關係,簡化並加速客戶對其頂級模型的調整過程,避免用戶轉向外部服務或性能較弱的替代品。

他還指出:「我們始終致力於降低技術門檻,減少操作障礙,從而減輕用戶啟動和調整模型的工作負擔。」

客戶在進行模型微調時,需將數據傳輸至OpenAI服務器。據OpenAI定製工作軟件工程師約翰·阿拉德(John Allard)介紹,此過程平均耗時約一兩個小時。初期,微調僅限於文本數據,暫不支持圖像或其他媒體格式。

在OpenAI發放免費Token之際,其正面臨來自Google、Anthropic等專有模型供應商及Nous Research Hermes 3、Meta Llama 3.1等開源模型的激烈價格戰。

不過,採用OpenAI及類似閉源/專有模型的優勢在於,開發者無需自行承擔模型推理或訓練的服務器託管任務,既可利用OpenAI服務器資源,也可通過API將其首選服務器無縫對接。

然而,研究表明,微調模型可能帶來風險,包括偏離原有安全護欄與性能保障,進而影響其整體效能。企業是否願意承擔此風險,需自行權衡。但OpenAI顯然認為其物有所值,並鼓勵用戶將微調視為優化選擇。

另外,OpenAI 週二表示,該公司將在其產品中展示來自《Vogue》、《紐約客》和《連線》等品牌的內容。該協議還允許 OpenAI 使用康泰納仕的內容來幫助訓練其人工智能模型,而這需要大量數據才能學習。

此次聲明標誌著OpenAI 加大與媒體媒體公司達成交易力度,而不是與媒體公司就如何在其 AI 工具中使用新聞文章和其他內容展開爭鬥。雙方並未披露協議的交易金額。

以下是OpenAI發佈的官方消息全文:

今天,我們推出了GPT-4o的微調功能,這是開發者最需要的功能之一。截至9月23日,我們還將為每家企業每天免費提供100萬個訓練Token。

開發者現在可以使用其獨有的數據集對GPT-4o進行微調,從而針對特定用例以更低的成本獲得更高的性能。微調技術賦予模型靈活調整回覆結構與語氣的能力,甚至能遵循複雜且高度專業化的領域指令,僅需少量訓練樣本(如數十個示例),即可為應用程序帶來顯著成效。

從編碼到創意寫作,微調功能廣泛覆蓋多個領域,深刻影響並提升模型的整體性能。這還只是一個開始,我們將繼續為開發者投資擴展我們的模型定製選項。

自即日起,GPT-4o微調功能全面向所有付費開發者開放。請直接訪問微調儀表板,點擊「create」按鈕,隨後從基礎模型下拉列表中選取「GPT-4o -2024-08-06」以啟動微調流程。關於費用,GPT-4o微調訓練成本設定為每百萬Token 25美元,而推理成本為每百萬輸入Token 3.75美元,每百萬輸出Token 15美元。

此外,GPT-4o mini微調功能同樣面向所有付費開發者開放。您只需在微調儀表板中選擇「GPT-4o-mini-2024-07-18」作為基礎模型即可。特別優惠:為慶祝上線,我們為GPT-4o mini用戶每日免費提供高達200萬個訓練Token,此優惠有效期至9月23日。

微調成功例證

在過去的幾個月裡,我們與許多值得信賴的夥伴合作,對GPT-4o進行了微調測試,並瞭解了他們的用例。以下是幾個成功的例子:

1.Cosine在SWE-bench基準測試中表現驚人

初創公司Cosine的Genie是一款人工智能軟件工程助手,能夠自主辨識並修復漏洞,構建功能,並高效協同用戶進行代碼重構。它還可以對複雜的技術問題進行推理,並以更高的準確性和更少的Token需求對代碼進行更改。

Genie由經過微調的GPT-4o模型支持,該模型融入了真人軟件工程師的實戰經驗,使模型能夠學習以特定的方式做出響應。此外,該模型還掌握了將輸出格式化為易於集成至代碼庫的補丁等特定格式,進一步提升了工作效率。

上週二公佈的SWE-bench驗證基準測試結果顯示,Genie以43.8%的SOTA分數傲視群雄,特別是在Full測試中,其SOTA得分高達30.08%,較之前的最佳成績19.27%實現了顯著飛躍,標誌著該基準測試歷史上的重大突破。SWE-Bench是一個評估人工智能軟件工程能力的測試。

2.Distyl在BIRD-SQL基準測試中排名第一

Distyl是財富500強公司的人工智能解決方案合作夥伴,最近在BIRD-SQL基準測試中排名第一,這是領先的文本到SQL基準測試。Distyl經過微調的GPT-4o在排行榜上的執行準確率達到了71.83%,在查詢重新表述、意圖分類、思維鏈和自我糾正等任務上表現出色,在SQL生成方面表現尤為突出。

數據私隱及安全

微調模型完全置於用戶掌控之中,用戶擁有對業務數據的絕對擁有權,涵蓋所有輸入與輸出。這確保了用戶的數據永遠不會被共享或用於訓練其他模型。

此外,我們為微調模型部署了多層次的安全防護機制,嚴防濫用行為。例如,我們不斷地在微調模型上運行自動安全評估,並監控使用情況,以確保應用程序遵守我們的使用政策。

我們熱切期待見證您通過微調GPT-4o所創造的成果。若您渴望探索更多模型定製的可能性,請隨時聯繫我們的團隊,我們定將竭誠為您提供支持與協助!

本文來自「騰訊科技」,作者:金鹿,36氪經授權發佈。