原理解析:17歲高中生「神級 Prompt,把 Claude 強化成滿血 o1」

大聰明:

從原理上來說,輸出 = LLM(上文)

這裏,上文包括:預設提示詞 + 用戶指令 + Rag 內容 + AI 生成內容(包括CoT、反思、多倫對話產生的內容等)。塗津豪同學厲害的地方,是讓更多人,感受到了上文優化帶來的效果增幅,僅通過固定提示詞(豐富版的 Let’s think step by step)。

對於大模型,只要上文好,其出產也會好。提示詞工程,正是基於這一原理,幫助提供足夠的、精準的上文。須知:提示詞工程,可以幫大模型更準確輸出,但無法讓其更聰明。

本文中,寶玉老師將帶著大家探索一下,塗津豪同學的提示詞,是如何構建的,以及更多原理,值得收藏

昨天一個熱門話題是塗同學發的讓 Claude 也能輸出類似 o1 思考過程的 Prompt https://github.com/richards199999/Thinking-Claude ,有人稱之為神級 Prompt,網民們體驗後評論不一:有人認為確實很強,效果很好;有人認為效果一般。

原理解析:17歲高中生「神級 Prompt,把 Claude 強化成滿血 o1」

首先,塗同學作為高中生,寫出這麼高質量的 Prompt,是很值得肯定的,能充分發揮模型潛力,讓 Claude 對於通用任務也使用思維鏈。

然後這個 Prompt 不用拔高到「神級」這個高度,我個人比較讚同下面 Wen Yu 和 padphone 網民的看法:

即使不用這個提示詞,Claude 也能得出差不多的結論;若進一步追問,Claude 輸出答案的深度甚至比使用那個提示詞更強。

提示詞變長以後,更無法確認模型對提示詞是全盤接受的;本質上注意力機制計算的結果和人主觀意識要求模型接受的不一致。

提示工程重要,但模型能力增強一定會降低提示詞的複雜度。

https://x.com/WenYu98767859/status/1856907303976661241 — Wen Yu

Claude 3.5 sonnet 本身不具備真正意義上的思考鏈條的。而這位高中同學提供的 prompt ,它的 thinking 與它最後提供的答案,都是同屬一個答案的(一個完整的答案,用兩種不同的方式劃分了)。通過 prompt 實現表面上劃分的思考和答案,實際上都是預先規劃的一次性輸出的。缺乏真正漸進性的思考的。實際上是在「表演思考」。它這個 prompt 的泛化能力有限的,會在一些編程或者一些系統化的任務中表現出息而已,利用分解問題以及多維度分析,實現結構化的引導,對於一些編程任務是有限,但是作用有限的。Prompt 是優秀的,也有它的局限所在,過度吹捧神化它,其實並不好。開源的作品,本質就是讓大家一起探索研究,一起優化,而不是把它過度神話,去收割流量韭菜。這不是一種好的現象,也不利於這位優秀的 17 歲的孩子的心智成長 https://x.com/lepadphone/status/1857112426447270258 — padphone

最後我嘗試用類比來解釋一下這類 Prompt 和 o1 這類推理模型的區別,不是很嚴謹,不要當作理論知識看,只是幫助更好的理解其中差別,不對之處也請指正。

先說個題外話,我們那一代學生,初中開始才學英語,學習的教材和方法也相對落後,主要靠背單詞記語法,整體英語基礎相對是比較差的,現在的孩子從小就開始學英語,聽說讀寫一起練,長大了就都能說的很標準了。

現在的大語言模型,就像是小學中學沒好好學過數學的一批大學生,全靠死記硬背記答案混過了高考,記憶力超好,知識特別豐富,寫出來的東西也漂亮,還善解人意。

用人單位一開始還挺高興,日常找找資料寫寫公文那是沒得說,寫程序都還不錯,但用了一段時間發現這幫大學生數學和邏輯真的不行,也不願意學習新知識,都這麼大了也沒法回爐重造了,負責帶這些大學生的導師們只好死馬當活馬醫,告訴學生們,數學推理這種問題,列出步驟就能改善很多(Let’s think step by step)!

好一點的導師甚至還會針對特定的問題耐性的列出步驟,這還真的管用,馬上學生們推理水平上了一大截,甚至能解決稍微複雜一點的問題。但是遇到導師自己也不會的,或者懶得說的,學生們只好只有發揮,有時候還真蒙對了,有時候就是胡說八道,但解題過程有模有樣,不懂的可能還真被忽悠了!

然後有聰明人把自己平時解題和推理的思維過程總結出來了,比如要從幾個不同角度去考慮、要去反思、要驗證結果,然後讓大學生們執行所有任務都按照這一套來。你還別說,對於有些任務還真的效果好一點,於是有人驚呼:神級 Prompt。

但是如前面兩位網民分析的,這種模仿別人思維過程的,可能只是在「表演思考」,他們的數學基礎並沒有本質提升,雖然在特定的一些任務會表現更好,但是並不代表真的可以改變自身數學基礎不行的本質。

那麼 o1 模型呢,就像新一代的大學生,從小就開始題海戰術,每天做大量的數學題和編程題,並且做的時候都要嚴格的列出步驟,做完了就去對答案,不對重新做!

等這批大學生畢業,他們的數學推理能力已經變得很強了,遇到問題不需要導師們去引導怎麼思考,而是會根據平時的訓練,自行去推理,自行驗證,遇到錯誤了能回退回去重新推演。當然對於一些已經有最佳實踐步驟的問題,導師們給出步驟會結果更好。

長江後浪推前浪,前浪死在沙灘上!