實測免費DeepResearch,輕量版深夜上線,基於o4-mini,速度更快/重視脈絡梳理

終於,免費用戶也能用上OpenAI的DeepResearch了,量子位也進行了新鮮實測!

OpenAI深夜官宣,基於o4-mini某個版本的輕量版DeepResearch正式上線。

按照官方說法,輕量版的回答會更短,但智能水平將幾乎無異於滿血版本

與此同時,輕量版的上線也意味著付費用戶可以有更多的使用次數

具體來說,付費用戶的滿血版用量不變,但每月可以獲得額外的輕量版使用機會,在滿血額度用完後會自動切換。

那麼,兩個版本表現究竟有何異同,來看量子位實測~

實測輕量版DeepResearch

我們一共找了10個話題讓ChatGPT進行深度研究,首先一併展示下用時、資料數量等能夠直接統計的數據。

整體來看,輕量版的用時和生成內容字數都明顯要比滿血版更少,至於參考資料數量則沒有明顯規律。

接下來,我們選擇其中三個,仔細對比一下滿血版和輕量版形成的報告質量:

印歐語系語言的演變歷史2024年AI穿戴市場發展情況推理大模型中的關鍵技術

無論是哪個版本,在我們提出研究話題時,都會詢問研究的具體內容、側重點等信息。

話題1:印歐語系語言的演變歷史

以第一個話題「印歐語系語言的演變歷史」為例,滿血版和輕量版在問題細化方面詢問的思路基本一致(下圖中上方為滿血版,下方為輕量版):

我們回覆「整體梳理,從古至今」。

然後模型便會開始規劃檢索,關於這個話題,兩個版本引用的資料都是主要來自域奇百科和大英百科全書,而滿血版還多引用了部分中文資源(僅限於當前話題,其他話題中輕量版也會引用非英語資源)。

(下圖中左側為滿血版,右側為輕量版)

通過二級標題來看最終報告的結構,滿血版採用了總-分-總的結構,並將印歐語系下屬各個語族分別作為一個部分進行了詳細介紹。

而輕量版的結構更加註重整體,每一部分都是分別從不同角度在講述演變的過程。(下圖中左側為滿血版,右側為輕量版)

滿血版的報告當中,每一個下屬語族的介紹都非常詳細。

輕量版則更側重於展示脈絡,將演變的大致過程做了簡要介紹,詳細程度則比不上滿血版本。

話題2:2024年AI穿戴市場發展情況

前面一個問題主要是讓模型在時間維度上進行信息梳理,接下來的這個話題則圍繞空間維度進行展開。

問題細化的過程是這樣,兩個版本區別不大(圖中還是上面滿血下面輕量版),我們則是直接這些內容全都要。

中間過程就不多贅述,兩個版本從結構上依然是大致相似(左滿血右輕量)。

市場規模的部分,滿血版分為了全球、國內和增長趨勢三個部分進行介紹,包含了大量具體數據和部分原因簡析,之後的增長趨勢還根據產品的具體類型進行了細分。

並且還根據IDC的數據繪製出了表格:

相比之下,輕量版也覆蓋了其中的一部分要點並同樣是全球-國內-趨勢這樣的結構,但每部分都只用一兩句話帶過。

至於表格,則是沒有的。

不過到了廠商部分,又變成了輕量版(下圖右側)的展示更加條理清晰。

後面的內容就不一一拆解了,整體來看,無論是從時間還是空間維度上梳理,滿血版都比輕量版多了大量的細節(下圖為滿血版)。後面的內容就不一一拆解了,整體來看,無論是從時間還是空間維度上梳理,滿血版都比輕量版多了大量的細節(下圖為滿血版)。

話題3:推理大模型中的關鍵技術

第三個話題關於推理大模型中的關鍵技術,這次兩個版本問出的細化問題稍有不同。

我們回覆重點關注模型架構、訓練算法和推理優化這三部分的信息。

對於模型架構的部分,輕量版(下圖右側)做出了表格整理,而滿血版分成了三個段進行文字敘述。

算法部分,輕量版提到了SFT、RLHF、對比學習與自監督等內容,而滿血版則分成了指令微調與多任務訓練、鏈式思維訓練與過程監督、反事實訓練與自我監督機制這三個部分。

最後關於推理優化,輕量版提及了量化、蒸餾、剪枝、KV緩存優化等技術,滿血版在此之外還提到了自適應推理、並行解碼等內容。

總得來看,如果比較詳細程度,滿血版是當之無愧的獲勝者

但如果只是用來幫助我們確定大概的研究思路和可能涉獵的內容,輕量版,也足以解決一部分需求。

甚至對於不喜歡長篇大論的用戶來說,輕量版看上去會更加簡潔。

關鍵是,免費用戶也能用啊。

參考鏈接:https://x.com/OpenAI/status/1915505961500070245

本文來自微信公眾號 「量子位」(ID:QbitAI),作者:基爾西,36氪經授權發佈。