剛剛!AI 編程新王 Claude 4,深夜震撼登基!連續編碼 7 小時,開發者驚掉下巴

【導讀】Anthropic,今晚扔出了真正的核武器——全球最強編程模型Claude 4!能連續編碼7小時不斷的Opus 4,再一次讓大模型能力實現了重大飛躍。網民實測後驚呼:不可能,從未見過一個AI做到這樣的事!

今晚的聚光燈,屬於Anthropic。

就在剛剛,全網翹首盼望的Claude 4,重磅登場!

CEO Dario Amodei親自上陣,攜Claude Opus 4和 Claude Sonnet 4亮相,再次將編碼、高級推理和AI智能體,推向全新的標準。

其中,Claude Opus 4是全球頂尖的編碼模型,擅長複雜、長時間運行的任務,在AI智能體工作流方面性能極為出色。

而Claude Sonnet 4,則是對Sonnet 3.7 的重大升級,編碼和推理能力都更出色,還能更精準地響應指令。

同時,Claude把這段時間積攢的一系列產品,通通一口氣發佈了——

  • Claude Opus 4和Sonnet 4混合模型的兩種模式:幾乎即時的響應和用於更深度推理的擴展思考。

  • 擴展思考與工具使用(測試版):兩款模型均可在擴展思考過程中使用工具(例如網絡搜索),使Claude能在推理與工具使用間靈活切換,從而優化響應質量。

  • 新的模型能力:兩款模型均可並行使用工具,更精確地遵循指令,並且(當開發者授予其訪問本地文件的權限時)展現出顯著增強的記憶能力,能提取、保存關鍵信息,以保持連續性,並隨時間積累隱性知識。

  • Claude Code:可通過GitHub Actions支持後台任務,並與VS Code和JetBrains進行了原生集成,可直接在文件中顯示編輯內容,實現無縫結對編程。

  • 新的API能力:Anthropic API新增四項新功能,讓開發者能夠構建更強大的AI智能體——代碼執行工具、MCP連接器、文件API,以及長達一小時的提示詞緩存能力。

所以,什麼人能用上這次的新模型?

目前,訂閱了Pro、Max、Team和Enterprise版的Claude用戶,可以立即體驗到這兩款模型及擴展思考功能。其中,Sonnet 4還將向免費用戶開放。

開發者則可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI調用。

而Claude 4的定價,也與此前保持一致:

  • Opus 4每百萬Token為15美元(輸入)/75美元(輸出)

  • Sonnet 4每百萬Token為3美元(輸入)/15美元(輸出)

Claude 4:AI編程新王登基

Claude Opus 4號稱是Anthropic迄今為止最強大的模型,也是全球最頂尖的編碼模型。

在SWE-bench和Terminal-bench測試中,分別以72.5%和43.2%的得分全面領先,碾壓OpenAI剛剛發佈的編程智能體Codex-1和最強推理模型o3。

即使在需要高度專注並執行數千步驟的長時間運行任務中,它都能展現出持續穩定的性能,連續工作數小時。

可以說,Opus 4的推出極大擴展了AI智能體的能力邊界。眾多前沿的AI智能體產品,都將獲得強大支持。

· Cursor:Opus 4的編碼能力已達業界頂尖水平,在理解複雜代碼庫方面,還取得了飛躍性進展。 

· Replit:在處理跨多個文件的複雜變更時,Opus 4的精度大大提升,表現出顯著進步。 

· Block:在「goose」智能體中,Opus 4是首款能在編輯和調試過程中提升代碼質量,同時還能保持完整性能和可靠性的模型。 

· Rakuten:Opus 4通過了一項要求嚴苛的開源代碼重構任務,這項任務獨立運行長達7小時,期間它始終保持了穩定的性能。 

· Cognition:Opus 4擅長解決其他模型難以應對的複雜挑戰,能夠成功處理先前模型未能完成的關鍵操作。

而在Sonnet 3.7已經算業界領先的能力基礎上,Claude Sonnet 4又再度實現了顯著提升。

它在編碼上極其出色,在SWE-bench測試中,直接取得72.7%的頂尖成績!

而且,Sonnet 4在內部及外部應用場景中,均實現了性能與效率的良好平衡,可操控性也大大增加了。

儘管在多數領域,Sonnet 4的表現並不及Opus 4,但它在能力與實用性之間卻達到了最佳平衡。

Anthropic:引爆推理革命

這就意味著,2025年的推理模型大戰,Anthropic正式下場!

2025年,AI行業的一個明顯趨勢,就是轉向推理模型。這類AI在做出反應之前會系統地解決問題,模擬類人的思維過程,而非簡單地根據訓練數據進行模式匹配。

去年12月,OpenAI拋出o系列,正式拉開大戰序幕;Google的Gemini 2.5 Pro,也緊隨其後推出實驗性的「深度思考」功能;然後,就是DeepSeek-R1憑卓越性能和超高性價比,強勢佔領市場份額。

顯然,現在人們使用AI的方式已經發生了根本性變革。

Poe的《2025年春季AI模型使用趨勢報告》顯示,推理模型的使用量在短短四個月內增長了五倍,佔所有AI交互的比例從2%增長到10%。用戶也越來越多地將AI視為解決複雜問題的思維夥伴,而非簡單的問答系統。

隨著新模型帶來的用戶興趣的提升,推理類信息的比例在2025年初大幅上升

隨著新模型帶來的用戶興趣的提升,推理類信息的比例在2025年初大幅上升

而這次,Anthropic再次給推理大戰貢獻了顛覆性的形式——將工具使用直接融入推理過程。

比起以前先收集信息再進行分析的系統,這種同步研究與推理的方法,顯然更貼近人類認知。

Claude Opus 4和Claude Sonnet 4這種在推理過程中暫停、查找數據並融入新發現的能力,就創造了更自然、更有效的體驗。

模型改進:不偷懶,記性好

此外,Anthropic還顯著減少了模型在完成任務時試圖走捷徑或利用漏洞的行為。

在某類AI智能體任務上,模型特別容易走捷徑,但這次的兩款新模型發生此類行為的概率,比Sonnet 3.7要低65%。

在記憶能力上,Claude Opus 4也顯著優於所有先前的模型。

當開發者構建的應用授予Claude本地文件訪問權限時,Opus 4便能熟練地創建和維護用於存儲關鍵信息的「記憶文件」,從而提高自己在AI智能體任務中的長期任務感知能力、連貫性和整體性能。

一個突出表現就是,Opus 4在玩《寶可夢》時,能創建並使用「導航指南」!

而團隊為Claude 4模型引入的思考摘要功能,會利用一個較小的模型來精簡冗長的思考過程。

不過需要注意,這項功能僅在約5%的情況下才需要啟用——因為大多數思考過程本身就足夠簡短,能夠完整呈現了。

網民實測:簡直瘋狂

手快的網民們,已經開始實測了。

比如用Claude 4製作一個CRM儀表板,只需30秒,速度直接讓人瞳孔地震。

連續7小時編程,意味著AI大模型能力發展史上的一次分水嶺。

僅用一個提示,僅僅一次,Claude 4 Opus就能完成一個可運行的瀏覽器智能體,包括API和前端。

大佬驚呼:不可能,我從未見過這樣的事!

另一位獲得提前內測資格的用戶,體感是:Claude 4寫作和編輯能力一流,編碼能力和Gemini 2.5一樣好。

比如,它一次性就構建了一個俄羅斯方塊遊戲。

禾頓商學院教授Ethan Mollick則用Claude 4 Opus製作了一段令人印像極深的影片,提示詞為「用p5.js創建小說《皮拉內西》的三維世界」。

Claude Code

Claude Code,也正式發佈了。

由此,Claude的強大功能就融入更多開發工作流程中——無論是在終端、用戶所偏好的IDE中,還是通過Claude Code SDK在後台運行。

針對VS Code和JetBrains的全新測試版擴展程序,可將Claude Code直接集成到我們的IDE中。

甚至,Claude還會以內聯方式,直接在文件中顯示出編輯建議,這樣就能在我們熟悉的編輯器界面中簡化審查和跟蹤流程。在IDE終端中運行Claude Code,即可安裝。

並且,團隊還發佈了一款可擴展的Claude Code SDK,因此開發者可以使用與Claude Code相同的核心AI智能體來構建自己的AI智能體和應用程序。

下面就是一個SDK功能的示例:Claude Code on GitHub,目前仍處於測試階段。

可以看到,在PR(拉取請求)中標記Claude Code,它就能響應審查者反饋、修復CI錯誤或修改代碼。

在Claude Code內運行/install-github-app,就可直接安裝了。

總的來說,Claude 4是向虛擬協作者邁出的一大步——能夠保持完整的上下文理解,在較長項目中持續專注,從而推動變革性的影響。

此外,兩款模型也都經過了廣泛的測試和評估,最大限度地降低了風險並提高安全性,包括實施了更高級別的AI安全措施(如ASL-3)。

參考資料:

https://www.anthropic.com/news/claude-4