ChatGPT全年更新大總結,重看「大模型風向標」進化之路
2024年,OpenAI的ChatGPT在大模型領域不斷突破,推出了多項創新功能,如個性化聊天機器人商店、增強記憶功能、多模態處理能力等,在安全性、穩定性和高效性方面也持續優化,一起回顧一下吧!
2024年,大模型已經深入融入了我們的日常生活。
而作為領跑者,ChatGPT也一直是大模型屆的指南針,無論是去年發佈的大模型o1-pro,Sora Turbo,還是各種小功能,比如影片模式、打斷說話等,甚至是每月200美元的高額定價,OpenAI的每一場發佈會都能給廣大AI愛好者帶來一些新震撼、新思路。
下面共同回顧一下OpenAI在2024年發佈的關鍵更新,一起見證大模型的進化之路!
1月
GPT商店:用戶可以發佈構建的個性化聊天機器人(GPTs),按類別進行搜索,如寫作、生活方式和教育等。
守護者工具(選舉相關):OpenAI更新了政策,禁止ChatGPT、DALL-E等工具的用戶和製作者使用其工具冒充候選人或地方政府,用戶也不能將其用於競選活動或遊說,還不能使用這些工具阻止投票或歪曲投票過程
內聯標記(Inline tagging):用戶可以在聊天框中輸入「@」觸發GPT提及功能,系統會顯示可用的GPT模型列表,用戶可以在一次對話中集成和與多個AI模型交互。
回覆語音朗讀(手機app):增添回覆內容的語音朗讀功能,提升用戶獲取信息的便捷性。
GPT自助申訴流程:用戶可以自行提交申訴GPT使用中遇到的問題。
團隊計劃:ChatGPT插件的測試版本停止服務。
2月
記憶功能(sunshine)發佈:可增強模型對過往對話的記憶,使交互更具連貫性,從而更好地理解用戶的上下文和需求。
發佈全新外觀(Hedgehog)
反饋功能:增加用戶對GPT的評論和反饋機制,方便用戶對不同GPTs給出評價和建議,促進改進。
作者驗證:對GPT創建者的個人資料引入社交驗證功能,提升創建者身份可信度和內容權威性。
Sora發佈:能夠根據簡單的文本描述快速生成長達一分鐘的高質量影片,更好地遵循用戶的指令,生成的影片具有高度逼真的視覺效果,包含複雜的場景、多角色互動以及特定類型的運動。
深色與淺色模式:對界面的視覺效果進行優化,適配不同使用場景和用戶偏好。
GPT版本歷史:方便用戶瞭解GPT的迭代情況,追溯功能變化。
3月
自定義指令(GPT-4):用戶可以在系統層面為ChatGPT定製化一些指令,包括個人背景信息和回覆格式要求。
DALL·E 3 controls (style & aspect ratio), editor & inpainting:為用戶提供了豐富的預定義風格選擇;用戶可以對指定區域用自然語言提示詞進行微調,如增加畫面元素、刪除畫面元素、修改特徵等。
朗讀(網頁端):自動檢測正在讀取的文本的語言,然後以相應的語言進行朗讀;提供五種不同的聲音。
收益計劃:根據GPTs的使用量,與開發者進行分成,為開發者提供了一種新的盈利途徑,以激勵創建更優質的GPT服務。
4月
無帳號訪問:更便捷體驗ChatGPT,但只能使用GPT-3.5免費版,使用Dall-E 3等高級功能仍需帳號。
數據控制v2:用戶可以在不影響查看聊天歷史的情況下選擇是否將自己的數據用於模型訓練;新增了移動端語音數據選項,預設關閉。
域名統一遷移到了chatgpt.com,統一品牌和服務入口。
GPT-4 Turbo發佈:比GPT-4的生成速度快兩倍,具有更大的上下文窗口,達到128k個token,價格只有1/3
5月
免費用戶也可以選擇預設的對話模型,比如切換GPT-4o-mini和GPT-4o,根據自身需求定製對話模型,提高效率和一致性。
Connected apps:僅適用於ChatGPT plus、團隊和企業用戶,可以直接將Google Drive和Microsoft OneDrive中的文件直接上傳到 ChatGPT,方便用戶對雲端存儲中的文件進行分析和處理。
為macOS系統用戶推出了桌面應用程序。
GPT-4o發佈,具有多模態能力,能夠同時處理文本、音頻和視覺等多種模態的信息,在語音對話方面表現出色,自然流暢且能實時表達情感和理解語音背後的情緒,支持50種語言,並且在API上價格更便宜、性能提升2倍、速率限制提高5倍。
對ChatGPT的界面進行了重新設計,代號Fruit Juice
用戶可以使用不同的模型對同一個prompt重新生成回答。
不再為用戶提供「Sky」語音選項,具體原因暫未公開。
用戶可以根據對話的進展和需求,在同一次對話中切換模型,提高了對話的靈活性和效果。
免費用戶可以使用一些之前僅限付費用戶使用的工具和GPTs,如互聯網訪問、圖像上傳和分析、創建圖表、高級數據分析、啟用記憶功能、訪問 GPT 商店等。
6月
蘋果在2024年全球開發者大會(WWDC)上,宣佈與OpenAI達成合作,將ChatGPT集成到Siri中;用戶請求不會被OpenAI存儲,用戶的IP地址會被模糊處理,且用戶可選擇是否連接ChatGPT帳號。
將此前面向ChatGPT plus用戶推出的macOS桌面應用程序Sidekick,轉為所有用戶可用,可以在應用內進行截圖並與GPT-4o討論,輔助理解代碼片段或解讀複雜的圖表等。
7月
GPT-4o mini (Chive)發佈,比GPT-4o的參數量更少,API支持128k、16k輸入tokens長度,價格上比GPT-3.5 Turbo便宜60%以上,也是OpenAI首個使用全新安全策略「指令層次結構」的AI模型,即要求系統優先執行預設命令,可以阻止惡意用戶誘導模型執行非法操作。
GPT-4o和GPT-4o mini發佈後,GPT-3.5在多語言支持、響應速度和處理能力方面就顯得很弱了,在7月19日正式退休。
ChatGPT的新界面(Fruit Juice)對所有用戶切換為預設。
OpenAI發佈SearchGPT原型產品,能夠準確理解用戶的複雜查詢,提供更加相關的搜索結果,克服了傳統搜索引擎在處理複雜和模糊查詢時的不足;不僅能提供相關搜索結果,還可利用強大的語言生成能力直接生成詳盡的回答;用戶可以像與人對話一樣提出後續問題;在搜索結果中突出引用並鏈接信息來源,回覆中有清晰的內聯歸因,用戶還可從側邊欄快速訪問更多來源鏈接。
8月
基於GPT-4o的影片和音頻能力,Advanced voice(gpt-4o-s2s)可以感知和回應用戶情緒,提供更自然、實時的對話體驗,用戶可以隨時打斷。
免費用戶每天可以使用DALL・E 3生成兩張圖片。
模型記憶的最大tokens長度增加到8k,在處理長文本和複雜對話時可以更好地保留上下文信息,避免因記憶限制而出現的回答不完整或遺忘前文的情況。
Starter Prompts v2: 提供了更新和更豐富的起始提示語,更好地引導用戶提出高質量的問題和請求。
ChatGPT宣佈正在與Google Drive和Slack開發新的同步連接器,用戶可以無縫訪問文檔內容,提高團隊效率。
9月
OpenAI對ChatGPT的高級語音模式進行了更新,新增了影片和共享屏幕功能,能理解各種口音和語調並準確轉化為文本,還支持實時翻譯,方便國際用戶溝通。
OpenAI發佈o1-preview,專為處理高複雜度、需要深度推理的任務而設計,如法律分析、學術研究和複雜決策製定等場景;可以處理圖像、音頻等多種數據格式;開發者可以根據具體業務需求對模型進行高度定製,可適應電商產品推薦、教育培訓課程設計等。
o1-mini更加經濟,成本相比o1-preview降低約80%,適用於計算資源有限但需要結構化推理能力的環境,在基本的推理任務上表現出色,如數學和編程。
添加了兩個快捷指令:「/picture」可以調用DALL-E模型生成圖片;「/search」可以將用戶輸入轉為搜索查詢。
10月
為macOS和Windows桌面端推出高級語音功能,用戶可以設置自定義指令來定製模型的語音風格、語速等。
基於GPT-4o推出畫布功能(gpt-4o-canmore),用戶可以繪圖、創建思維導圖、流程圖等;為開發者提供一個可視化的代碼結構工具,用戶可以在畫布上繪製軟件架構或函數結構;能夠直觀地整理思路,拖拽文檔結構,添加註釋,為用戶優化文本;用戶可以通過頭腦風暴,組織關鍵點,繪製幻燈片。
用戶可以在聊天歷史中進行快速搜索(Fanny Pack),如特定內容、問題、答案等。
11月
ChatGPT網頁版的付費用戶可以使用高級語音功能,能感知用戶語音在語調和語速上的細微差別;可以設置自定義指令來定製模型的說話方式,比如以特定的節奏說話、發音清晰、慢速說話,定期加入用戶的名字等。
Windows版的桌面應用程序(Sidetron)支持語音輸入、截取屏幕、上傳本地文件等。
ChatGPT桌面端在macoS系統上,支持在Xcode、VSCode、TextEdit等IDE和各種編輯器中調用 ChatGPT 獲取代碼解釋和解決報錯,以及與終端等應用程序的聯動。
12月
在高級語音模式中增加了影片和屏幕共享功能,ChatGPT可以看到用戶的操作和展示的內容,並做出更精準的回應,適用於在線會議、遠程協作、在線教學等場景。
用戶在畫布中可以直接執行Python代碼,為數據科學家和分析師等提供了更便捷的數據分析和處理環境。
OpenAI發佈o1正式版,速度提升50%,出現重大錯誤的概率減少了50%;o1-pro需要ChatGPT Pro才能使用,月費200美元,能夠更深入地思考,提供更高質量的答案。
OpenAI展示o3模型, 在ARC-AGI基準測試中取得75.7%的高分,展現出強大的推理、編碼和數學解題能力,接近人類專家甚至在某些方面超越人類水平;o3-mini-preview相對更具成本效益,正式版o3-mini計劃2025年1月底發佈。
為了確保o3和o3-mini模型在發佈前的安全性和可靠性,OpenAI採用了多層安全測試方法,將內部評估與外部研究計劃相結合,招募安全研究人員參與測試,以便發現潛在的安全風險和漏洞並及時修復。
OpenAI發佈Sora Turbo,支持文本、圖像和影片輸入,能生成解像度高達 1080p、時長最長 20 秒的影片,格式可選寬屏、豎屏或方形;支持5個創意工具,用戶可以精確控制每一幀內容,為影片添加多個分鏡頭,替換、刪除或重構影片中的元素,使用循環剪輯並創建無縫重覆的影片等。
參考資料:
https://x.com/btibor91/status/1873391215980527840
本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。