Claude 4發佈:替代人類程序員所需的條件,現在它都有了

本文來自微信公眾號:矽星人Pro (ID:gh_c0bb185caa8d),作者:王兆洋,題圖來自:AI生成

Anthropic近日發佈其最新的Claude 4系列模型,包括旗艦型號Claude Opus 4和更側重效率的Claude Sonnet 4。新模型在編程能力上實現了重大突破,Opus 4在SWE-bench等關鍵基準測試中得分達到72.5%,並能處理數百萬行級別的複雜代碼庫,以及在一些測試場景中,實現了長達7小時的連續編程任務。

Claude 4系列還引入了「工具輔助的延伸思考」、增強的記憶能力以及正式版的編程助手Claude Code,後者已深度集成至VS Code和JetBrains IDE。在API和MCP的接入等能力上也有大範圍更新。

這是一次全方位的更新,針對編程和推理能力。而這次大更新和工具能力的補足後,Claude 4有了替代人類程序員所需要的所有條件,接下來就是一路提升這些能力,短期目標讓Agents普及,長期就直奔Anthropic眼裡的AGI了。

一、不只是模型升級,更是全面能力補足

Claude 4的發佈,並非簡單沿襲「Haiku、Sonnet、Opus」的階梯式組合,而是推出了兩大核心模型:追求極致性能的Claude Opus 4和兼顧效率與成本的Claude Sonnet 4。

Anthropic聲稱,Opus 4是目前編程能力較為領先的模型之一。根據披露信息及早期用戶反饋,它頗有「質變」的意味,不僅編程效率提升,而且其展現出的複雜任務理解和執行能力,讓很多人「feel到了AGI」。

顯著提升的代碼生成與理解:Claude Opus 4在編程基準測試SWE-bench上取得了72.5%的得分,在Terminal-bench上也達到了43.2%;而Sonnet 4在SWE-bench上的得分也達到了72.7%,接近Opus 4的水平。

而根據提前試用者的反饋,很多場景已經遠非生成代碼片段或輔助調試,而是能夠理解並處理數百萬行級別的複雜代碼庫,從高度抽像的自然語言需求直接生成結構完整、邏輯嚴密的應用程序框架。

Rakuten在一項高要求的開源重構任務中,Opus 4連續穩定運行長達7小時,表現出色。Cognition AI表示,Opus 4能解決其他模型此前無法完成的複雜任務。這種深度理解和生成能力,是構建更高級智能體的前提。

這些數據和案例表明,Claude 4不僅僅是代碼片段的生成器,它已經具備了理解大型、複雜項目架構的能力,能夠從高層次的需求出發,生成結構完整、邏輯嚴密的應用程序。這意味著它能夠勝任從需求分析(理解自然語言需求)到代碼實現、重構乃至持續集成等傳統上由人類程序員完成的整個開發生命週期中的核心任務。這種全棧式的代碼處理能力,是替代人類程序員在日常開發工作中所需的第一塊能力。

「延伸思考」與超大上下文窗口:模型在進行深入思考時,能夠交替使用工具(如網頁搜索)以優化推理過程,這一「工具輔助的延伸思考」能力(測試版)使其在GPQA、MMMLU(Opus 4得分87.4%)、AIME等測試中表現突出。

這種能力超越了簡單的模式匹配,展現了初步的規劃和策略調整,是通用問題解決能力的一種體現。同時,Claude 3時代令人印象深刻的上下文窗口在Claude 4這裏得到繼承和發展,為處理龐大項目提供了基礎。

「主動糾錯」、「架構建議」與「記憶力」:Claude 4不僅能發現並修復錯誤,更能從架構層面提出優化建議。新增的「記憶能力」允許模型提取並保存關鍵信息。

比如在玩《寶可夢》時創建「導航指南」,形成「工作記憶文件」,保持上下文連貫,這對於長任務執行至關重要。這種自我修正和長期記憶的特性,是智能系統向更自主、更通用方向發展的關鍵特徵。

更重要的是,Claude 4不再僅僅是執行指令的工具,它開始展現出高級程序員和架構師所特有的思考能力。‘主動糾錯’不僅限於語法錯誤,更深入到邏輯和架構層面,這意味著它能像經驗豐富的開發者一樣,預見並解決潛在問題,甚至優化整體設計。

「記憶能力’則讓它能在一個項目中保持長期的上下文連貫性,無需反復喂入信息,這極大地提升了其處理長期、複雜項目的效率和可靠性。這些認知能力的補足,使得Claude 4能夠承擔過去只有資深人類工程師才能勝任的、需要深度思考和持續迭代的工作,從而為真正的‘替代’奠定了智力基礎。

Claude Code正式發佈與深度集成:面向開發者的編程工具Claude Code正式發佈,並已支持GitHub Actions,推出了針對VS Code和JetBrains系列IDE的測試版擴展。

這意味著開發者可以在熟悉的編輯器中直接獲得Claude的代碼修改建議、追蹤任務。

例如,在演示中,Claude Code僅用一次提示,在90分鐘內為Excalidraw項目完整實現了此前擱置的表格組件功能,包括生成代碼、測試用例、UI集成和PR提交,全程無需人工編輯。這預示著AI不僅是工具,更將成為開發流程中的核心參與者和決策者。

Claude Code的正式發佈及其與主流IDE的深度集成,標誌著AI在編程領域的角色從‘輔助’走向‘主導’。它不再是需要人類頻繁介入的智能提示或調試器,而是能夠接收高層指令,自主完成從代碼編寫、測試、集成到版本控制(如PR提交)的整個工作流。Excalidraw的案例清晰地展示了這種端到端的自動化能力:一個複雜的功能需求,在極短時間內由AI獨立完成,且無需人工干預。這種無縫融入現有開發環境並能獨立執行複雜任務的能力,是實現‘替代’的關鍵一步,因為它直接減少了人類在具體編碼和流程管理上的投入。

為高級Agent構建的API與工具:Claude 4在Agentic能力上實現了顯著飛躍,能夠更可靠地執行複雜的多步驟任務,並與外部工具和API高效協同。

Anthropic為此推出了全新的API功能,包括允許Claude在安全沙盒環境中執行Python代碼以進行計算和數據可視化的代碼執行工具,以及無需編寫客戶端代碼即可將Claude連接至任何遠程模型上下文協議(MCP)服務器的MCP連接器。

此外,文件API簡化了開發者在構建應用時存儲和訪問文檔的流程,而擴展的提示緩存則提供了在標準5分鐘或延長至1小時的緩存有效期之間進行選擇的靈活性。這些新特性與Claude Opus 4和Sonnet 4模型相結合,將助力開發者打造出能夠執行複雜數據分析、與外部系統無縫對接、高效管理文件,並且能將對話上下文保持長達60分鐘的智能代理。

成本效益與易用性:儘管能力大幅提升,Opus 4每百萬token的輸入/輸出價格分別為$15/$75,Sonnet 4為$3/$15,與前代持平。兩款模型均已上線Anthropic API、Amazon Bedrock和Google Cloud Vertex AI平台,Sonnet 4甚至向免費用戶開放。

Claude 4系列模型在編程能力上頗有「從量變到質變」的味道。

二、讓人類把編程的權力讓給AI,是Anthropic走向AGI的第一步

Claude 4的強大能力已在多個場景中得到驗證:

例如,在Replit的實測中,Opus 4在處理涉及多文件、大規模改動的複雜項目中展現出更高的準確率;Block公司在其代號為Goose的Agent中集成Opus 4後,首次在編輯和調試代碼過程中觀察到代碼質量的顯著提升,同時保持了系統的穩定性和性能。有用戶也成功讓Opus 4一次性生成了包含四種不同天氣狀態及獨特動畫效果的天氣卡片,而Sonnet 4也在第二次嘗試後成功交付了一個包含自動演示AI功能的紅白機風格「貪吃蛇」遊戲。

從這些案例可以看出,AI可以一次性完成的任務,越來越多,越來越複雜。

Claude 4還帶來了全新的Agent的可能。Anthropic表示,未來優秀的AI Agent需要具備「情境智能」、「長任務執行能力」和「真實協作能力」。接下來的目標是出現主動修改優化自身代碼邏輯,甚至為自己編寫新工具的「代碼自進化」Agent。

Anthropic CEO Dario Amodei在當天的發佈上描述這種新的人機協作模式時說:「我們正進入一個新世界,開發者可以像管理一支Agent團隊一樣工作:‘你去做這個,你去做那個。’我常說,做AI就像是坐在一艘飛船上,以相對論的速度離開地球——你在飛船上過一天,地球上可能已經過去兩天了。」他說。

「所以大膽一點。構建一個超出你原本認為可能實現的東西。即使它現在還無法完全實現,下一代模型就要來了。」他說。

現在看來,Anthropic的路線越來越明晰,選擇「代碼生成與理解」這一高度結構化、對邏輯推理和規劃能力要求極高的領域作為突破口,安全且負責任地將複雜認知任務(如編程)的執行權從人類手中讓渡給AI,就是實現Anthropic眼裡那個AGI的第一步。

而當這些Agent能夠高效、低成本地創建和管理軟件時,Dario預言:

「當‘寫軟件的成本’大幅下降時,經濟和商業結構會發生什麼?……當軟件可以按需、低成本、一次性創建時,整個世界都會不同。」