▲頭圖由AI生成

智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 漠影

智東西9月17日報道,今天凌晨,阿里巴巴開源了其首個深度研究Agent模型:通義DeepResearch

在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集中,通義DeepResearch模型憑借3B激活參數,性能超越基于OpenAI o3DeepSeek V3.1Claude-4-Sonnet等旗(qi)艦模(mo)型的ReAct Agent(推理-行動(dong)智能體)。

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

▲基準測試成績排名

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

▲基準測試分數

目前,通義DeepResearch的(de)模(mo)型(xing)、框架(jia)和(he)方案已(yi)在Github、Hugging Face和(he)魔搭(da)社區(qu)全面開(kai)源,開(kai)發者和(he)用(yong)戶可自行下載(zai)模(mo)型(xing)與代碼(ma)。

阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首

下(xia)載(zai)地址:

Github:

//github.com/Alibaba-NLP/DeepResearch

Hugging Face:

//huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

魔搭社區:

//modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

深度(du)研究(jiu)作為近一(yi)年的AI研究(jiu)熱點,吸引了(le)谷歌、OpenAI、Anthropic等(deng)眾多主流企業投入研發。

深度研究研發的現有方法大多采用“單窗口、線性累加”的信息處(chu)(chu)理(li)(li)模式,在處(chu)(chu)理(li)(li)長周期任(ren)(ren)務時,Agent易(yi)遭(zao)遇(yu)“認知空(kong)間窒息”與“不可(ke)逆(ni)的噪聲污染”,導致推理(li)(li)能(neng)力降低,難以(yi)完成復雜研(yan)究任(ren)(ren)務。

據介紹,為解決這些問題,阿里通義團隊構建了一套合成數據驅動的完整訓練鏈路,覆蓋預訓練與后訓練階(jie)段。

該鏈路以Qwen3-30B-A3B模型為基礎進行優化,設計了RL算法驗證與真實訓練模塊,涵蓋(gai)真(zhen)實(shi)與虛擬環(huan)境,并借助異步強化(hua)學習算法及自動化(hua)數據策展流(liu)程,有效提升了模型的迭(die)代速度與泛(fan)化(hua)能力。

在推理階段,通義團隊還設計了ReAct基于自研IterResearch的Heavy兩種模式。ReAct用于精準評估模型的基(ji)礎(chu)內(nei)在能(neng)力,Heavy則通(tong)過test-time scaling策(ce)略,充分挖掘模型的性能(neng)上限,確保在長任務中也能(neng)實(shi)現高質(zhi)量推理。

結語:阿里進一步補全開源布局

今年(nian)以來(lai),阿里已陸續開(kai)源WebWalker、WebDancer和WebSailor等多(duo)款(kuan)檢索和推理智能(neng)體,且均取得(de)開(kai)源SOTA成(cheng)績。通義DeepResearch的開(kai)源,進一(yi)步(bu)豐(feng)富了阿里在AI智能(neng)體領域的開(kai)源布(bu)局。

通義DeepResearch的(de)開源為深度(du)研(yan)究Agent賽道(dao)提(ti)供(gong)了“輕量化(hua)高性(xing)能”的(de)新選擇,也(ye)為全球開發者攻克長周期復雜研(yan)究任務提(ti)供(gong)了關鍵工具(ju)支撐。