▲頭圖由AI生成

智東西(公眾號:zhidxcom)
編譯 | 程茜
編輯 | 李水青

智東西9月16日消息,今日凌晨,OpenAI發布新模型GPT-5-Codex,這是其在GPT-5基礎上(shang)專門為軟件工(gong)程優化的(de)模(mo)型版本,進一(yi)步提升了Codex中的(de)智能(neng)(neng)體編程(Agentic Coding)能(neng)(neng)力(li)。

OpenAI在博客中提到,GPT-5-Codex的訓練側重于實際的軟件工程工作,其可以根據任務動態調整思考時間,在大型復雜任務上能夠獨立工作超過7個小時

同時在基準測試中,相比于GPT-5,GPT-5-Codex在多項基準測試中的準確率、代碼審查的高影響力評論概率都實現提升。

GPT-5-Codex發布后兩個多小時,OpenAI聯合創始人、CEO薩姆·阿爾特曼(Sam Altman)就在X中透露,GPT-5-Codex的流量占比已達到Codex總流量的40%左右,今天就能占(zhan)到超一半流量比例。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

在開發者使用Codex的所(suo)有場(chang)景中,GPT-5-Codex均(jun)可用,它是云端任(ren)務和代碼審查的默認(ren)工具,開發(fa)(fa)者也(ye)可通(tong)過Codex命令行(xing)界面(CLI)或集成開發(fa)(fa)環(huan)境(IDE)進行(xing)擴展,選(xuan)擇將其用于本地任(ren)務。

OpenAI今年4月首(shou)次推(tui)出開源編(bian)程智(zhi)能(neng)體(ti)Codex CLI和(he)5月首(shou)次推(tui)出Codex的網(wang)頁(ye)版,兩周前其(qi)將Codex整合為一個通過ChatGPT帳戶連接的單一產品(pin)體(ti)驗,使得開發者(zhe)可以在(zai)本(ben)地環境和(he)云端之間無縫遷移(yi)工作,而不(bu)會(hui)丟失(shi)上下文。

Codex包含在ChatGPT Plus、Pro、Business、教(jiao)育和企業用(yong)戶的訂(ding)閱(yue)套餐中(zhong)(zhong),其中(zhong)(zhong)Plus、教(jiao)育和Business套餐每周可支(zhi)持(chi)幾(ji)次重點編碼(ma)課程,Pro套餐可支(zhi)持(chi)一周內多個項(xiang)目的使(shi)用(yong)。對(dui)于通過API密鑰使(shi)用(yong)Codex CLI的開發(fa)人員,OpenAI計劃很快(kuai)在API中(zhong)(zhong)提供GPT-5-Codex。

在(zai)OpenAI的(de)X評論區,開(kai)發(fa)者稱OpenAI這一新(xin)發(fa)布對(dui)于處理復(fu)雜項目非常(chang)有(you)前景,還(huan)有(you)開(kai)發(fa)者對(dui)自己的(de)AI工(gong)具訂閱預算擔憂。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

一、根據任務動態調整思考時間,錯誤評論減少、高影響力評論增加

GPT-5-Codex針對復(fu)雜的(de)實際(ji)工(gong)程任務進(jin)行了訓練,例(li)如(ru)從(cong)頭(tou)構建完整(zheng)(zheng)項目、添加功(gong)能和測(ce)試、調(diao)試、執行大規(gui)模重(zhong)構以及進(jin)行代(dai)(dai)碼審查。其可以更好遵循AGENTS.md的(de)指令,并生成(cheng)高(gao)質量的(de)代(dai)(dai)碼,開發者只(zhi)需(xu)提(ti)出(chu)自己的(de)需(xu)求,無需(xu)編(bian)寫冗長的(de)代(dai)(dai)碼風格(ge)或代(dai)(dai)碼整(zheng)(zheng)潔性說(shuo)明。

此外GPT?5-Codex會根據任務的復雜程度,動(dong)態調整(zheng)思考(kao)時(shi)間,其執行任務的時間會從幾秒到7個小時不等。該模型結合了編程智能體的兩項基本技能:在交互式會話中與開發者配對,以及在較長的任務上持續、獨立地執行。這(zhe)意(yi)味著Codex在處(chu)理(li)小(xiao)型(xing)、定義明確的請求(qiu)或與它(ta)聊天時(shi)(shi)會(hui)感覺更敏捷,并且在處(chu)理(li)大型(xing)重構等(deng)復雜任務時(shi)(shi)也能工作更長時(shi)(shi)間。

從歷史數據來看,包括GPT-5發布之時,OpenAI僅公布了477個衡量模型解決真實軟件工程任務能力的基準測試集SWE-bench Verified的測試結果,這是因為當時部分任務無法在其基礎設施環境中運行。如今,OpenAI已修復了這一問題,目前可公布全部500個任務的測試結果。GPT-5-Codex在該基準測試中的準確率為74.5%,GPT-5為72.8%。

OpenAI基于包含來自大型成熟代碼庫的重構風格任務測試了新模型的代碼重構能力,涉及Python、Go、OCaml等編程語言。GPT-5-Codex在該測試中的準確率為51.3%,GPT-5為33.9%

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

在測試中,研究人員發現GPT?5-Codex能夠獨立處理大型復雜任務超過7小時,不斷迭代實現、修(xiu)復測試(shi)錯誤并最終交付成功。

基于OpenAI內部員(yuan)工(gong)的(de)(de)使用情況,研究人員(yuan)發現當按模(mo)型生(sheng)成的(de)(de)token數(shu)對用戶交(jiao)互輪次進(jin)行排序時(shi),其中生(sheng)成token數(shu)最(zui)少的(de)(de)排名(ming)最(zui)后10%情況中,GPT-5-Codex使用的(de)(de)token比GPT-5少93.7%。

排名前10%的情況正(zheng)好相反,GPT-5-Codex會(hui)進(jin)行更多(duo)思考,在推理、代(dai)碼編(bian)輯、測(ce)試以及(ji)迭(die)代(dai)上花費的時間(jian)是GPT-5的兩倍。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

GPT-5-Codex還(huan)可用(yong)于執行代(dai)碼審(shen)查(cha)并查(cha)找關鍵缺陷。審(shen)查(cha)時,它會瀏覽開發者的(de)代(dai)碼庫(ku),推理(li)依賴關系,并運行代(dai)碼和測試(shi)以驗(yan)證正確性。

OpenAI評估了熱門(men)開(kai)源存儲庫(ku)中近(jin)期提交(jiao)的(de)代碼(ma)審(shen)查性(xing)能,經(jing)驗豐富的(de)軟(ruan)件(jian)工程(cheng)師(shi)會在每次提交(jiao)時評估審(shen)查意見的(de)正確性(xing)和重要性(xing)。

GPT-5的錯誤(wu)評(ping)論有約13.7%,GPT-5-Codex僅為4.4%,高影響力(li)評論占比中GPT-5有39.4%,GPT-5-Codex有52.4%,每個拉(la)取請求的平均評論(lun)數中,GPT-5平均有1.32條,GPT-5-Codex有0.9條。

他們發現,GPT-5-Codex的意見不太可能出現錯誤或不重要的情況

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

據TechCrunch報道,OpenAI Codex產品負責人Alexander Embiricos在一次簡報會上稱,GPT-5-Codex性能提升很大程度上得益于其動態(tai)思考能力。用戶可能熟悉ChatGPT中GPT-5的實時路由器(Real-timerouter),它會根據任務的復雜性將查詢定向到不同的模型,GPT-5-Codex的工作原理類似,但沒有內置路由器,可以實時調整任務的處理時長。與路由器相比,這是一個優勢,因為路由器一開始就決定了要用多少計算能力和時間來解決一個問題,而GPT-5-Codex可以在問題開始五分鐘后就決定需要再花一個小時

OpenAI的官方博客也提到,與(yu)通(tong)用模型GPT-5不同(tong),他們(men)建議開發者僅在Codex或(huo)類似Codex環境(jing)中執行智能體編(bian)程任務時使用GPT-5-Codex。

二、三大核心改進,智能體編程工作流更自動化

此外,OpenAI最近還進行了一些更新,包括改進的Codex CLI和(he)新的Codex IDE擴(kuo)展。

首先是針對Codex CLI。

基于開(kai)源社(she)區對Codex CLI的(de)反饋,OpenAI圍繞智能體編程(cheng)工作流重建了Codex CLI。現(xian)在(zai),開(kai)發者可以直接(jie)在(zai)CLI中附加和(he)共享圖(tu)(tu)像(xiang),包(bao)括屏幕截(jie)圖(tu)(tu)、線框(kuang)圖(tu)(tu)和(he)圖(tu)(tu)表等,從而構建基于設計決策(ce)的(de)共享上下(xia)文,并準(zhun)確獲取所(suo)需內容(rong)。

在(zai)處理(li)更復雜(za)的工(gong)作時(shi),Codex現(xian)在(zai)可(ke)以(yi)使用待辦事項(xiang)列表跟(gen)蹤(zong)進度,并包含(han)網頁(ye)搜索和MCP等用于連接(jie)外(wai)部系(xi)統的工(gong)具,從而(er)整體上提高工(gong)具使用準確(que)性。

終端用戶界面的升級包括(kuo)工具調用和(he)差異顯(xian)示(shi)格式更佳、更易于理解。

審批(pi)模式簡(jian)化為三個(ge)級別:只(zhi)讀(需(xu)明確審批(pi))、自動(需(xu)完(wan)全訪問(wen)(wen)工作區但需(xu)在工作區外審批(pi))以及完(wan)全訪問(wen)(wen)(可在任(ren)意位置(zhi)讀取文(wen)件并通過(guo)網(wang)絡訪問(wen)(wen)運行命令)。其還支持壓縮對(dui)話(hua)狀(zhuang)態,方便開發者管(guan)理較長的會話(hua)。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

其次是Codex IDE擴展。

這一IDE擴展(zhan)可將Codex智能體接(jie)入VS Code、Cursor以及其(qi)他基于VS Code衍生的編輯器,允許(xu)其(qi)與Codex共同(tong)預覽(lan)本地代(dai)碼變更、協同(tong)編輯代(dai)碼。

當開(kai)發者在IDE中使用(yong)Codex時,只需輸入更簡短的指令(ling)就(jiu)能獲(huo)得(de)結果,這是(shi)因為Codex可利用(yong)上下文信息,例(li)如(ru)開(kai)發者已打開(kai)的文件或(huo)選中的代碼片段。

Codex IDE擴展允許(xu)開(kai)發者在云(yun)端(duan)(duan)環(huan)境與本地環(huan)境之(zhi)間切換工作流,開(kai)發者無需離開(kai)編(bian)輯器,就能創建新的(de)云(yun)端(duan)(duan)任(ren)(ren)務(wu)、跟蹤(zong)正(zheng)在進行中的(de)工作、查看已完成的(de)任(ren)(ren)務(wu)。

若需對代碼進行收尾(wei)調整,其還可以在IDE中直接打開云端任(ren)務(wu),且(qie)Codex會完整保留相關上下文(wen)信(xin)息。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

此外,OpenAI還一直在提升云基礎設施的性能,通過緩存容器,其將新任務和后續任務的平均完成時間縮短了90%。Codex現在可以(yi)通過掃描并執行(xing)常用的安(an)裝腳本來自動設(she)置(zhi)環境;借助可配置(zhi)的互聯網訪(fang)問(wen)權限,在運行(xing)時根據需要執行(xing)像pip install這樣的命令來獲取依賴項。

與CLI和IDE擴展(zhan)中(zhong)一樣(yang),開發者(zhe)現在可以通過(guo)上(shang)傳圖像的(de)方(fang)式,向Codex共享前端(duan)設(she)計規范,如(ru)界面原(yuan)型圖、視覺稿,或上(shang)傳界面錯(cuo)位、樣(yang)式異常(chang)的(de)截圖說明UI漏洞。

Codex構建前(qian)端內容時,可以自行啟動瀏覽器(qi)查看(kan)已構建的(de)效(xiao)果并進行迭代(dai)優化,最終會將(jiang)結果截圖(tu)附加到對應(ying)任務(wu)以及GitHub拉(la)取請求中。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

在代碼審查中,Codex可以被用于發現關鍵缺陷。

與(yu)靜態分(fen)析工具不同,它可以將拉(la)取請求中聲明的開發意圖(tu)與(yu)實(shi)際差(cha)異進(jin)行(xing)匹配,結合整個(ge)代碼庫及依賴(lai)項(xiang)展開推理(li)分(fen)析,并通過執行(xing)代碼與(yu)測試(shi)用例來驗證實(shi)際運行(xing)行(xing)為(wei)。

一(yi)旦(dan)開發者在某個GitHub庫啟用了(le)Codex,當拉取(qu)請(qing)求從草稿狀(zhuang)態(tai)轉為就緒(xu)狀(zhuang)態(tai)時,Codex就會自動對其進行審(shen)查,并將分析結果發布在該拉取(qu)請(qing)求上(shang)。

如(ru)果Codex建議進行修(xiu)改,開發者可以(yi)在同一個(ge)對話線(xian)程(cheng)中(zhong)讓(rang)Codex直接實施這些修(xiu)改。

開發者也可(ke)以(yi)在拉取請求(qiu)(qiu)中(zhong)明確提及@codex review來請求(qiu)(qiu)審查(cha),例如@codex review for security vulnerabilities(讓Codex審查(cha)安全漏洞(dong))或(huo)@codex review for outdated dependencies(讓Codex審查(cha)過時的依賴(lai)項)。

連續干7小時“不累”!OpenAI最強編程模型GPT-5-Codex來了

Codex目前已在OpenAI內(nei)部(bu),被用于審查其絕大多(duo)數的拉取請求,每天能發現數百個問題,而且往往是在人工審查開始(shi)之前就已發現。

結語:AI編程工具競爭白熱化

當(dang)下,AI編程工具的競爭(zheng)已經(jing)變得愈(yu)發激(ji)烈(lie),既(ji)有OpenAI Codex、Claude Code、Anysphere Cursor、微軟GitHub Copilot幾大(da)產(chan)品進場廝殺,還(huan)有Cursor年度(du)經(jing)常(chang)性收入(ARR)在(zai)2025年初就超過5億美元,更(geng)有AI代碼編輯(ji)器Windsurf遭遇一場混亂收購,導致(zhi)其團隊被谷歌和Cognition兩家(jia)公司(si)瓜分(fen)。

OpenAI Codex此(ci)次升級,發(fa)布專門為智能體編程優化的(de)全新模型,使得其(qi)自(zi)動化編程以及與用戶協(xie)作的(de)能力都大幅提升,證明了(le)AI編程工具競賽的(de)激烈程度(du)持續升溫。