智東西(公眾號:zhidxcom)
作者 | 中國AI算力大會

6月26日,首屆2025中國AI算力大會在北京隆重舉行。實在智能合伙人、核心算法負責人歐陽小剛在大會主會場以《實在Agent智能體技術與端側應用探索》為主題發表演講。

歐陽小剛指出,“大模型和智能體的結合,正在推動企業工作方式從‘以人為中心、AI輔助’向‘以AI為中心、人類輔助’的深刻轉變。”

相較于早期AI只能在有限流程內完成部分替代,如今以大模型為核心的智能體正逐步具備跨域、多步驟的動態任務處理能力,為企業帶來了深刻的流程重塑和提質增效的機會。

演講中,歐陽小剛圍繞企業級智能體能力體系的構建、端側算力部署的探索、產品架構設計及客戶案例分享等方面,展開了深入講述。

以下為歐陽小剛的演講實錄:

大家下午好,我是實在智能核心算法部的負責人歐陽小剛。今天在座的各位專家多聚焦于算力以及底層硬件方向,我們公司則更關注大模型和智能體在應用層的落地,以及在落地過程中與算力結合過程中的探索與思考。

隨著大模型和人工智能技術的發展,企業端或辦公端的工作方式正在發生顯著變化。

過去以人為中心,AI更多承擔輔助工具的角色,幫助實現部分工作的自動化或效率提升,例如OCR、NLP等技術輔助,完成部分信息抽取和流程自動化。

如今,隨著大模型在意圖理解、邏輯推理等方面能力的持續增強,以及智能體(agent)概念的快速發展,工作模式正在向“以AI為中心、人類輔助”轉變。

一、從有限域到無限域,通用智能體架構讓大腦與手腳“融合”

傳統軟件大多只能完成預定義、有限域的任務,比如財務、物流中的標準化操作。但是現在企業的需求往往是跨域的、動態的,甚至不可預知的,要求AI能在一個流程結束后自動銜接下一個環節,實現跨系統、跨業務模塊的協同聯動。

那么,通用智能體該如何適應當下的這種改變呢?或者說,通用智能體應該具備什么樣的能力,擁有哪些特性?

這種情況下,我們就需要一個既具備泛化能力,又能在垂直行業場景中擁有足夠操作能力的智能體,也就是說,既要有“大腦”能力,也要有“手腳”能力。

大腦主要是大模型提供的意圖理解、推理規劃能力,手腳則是底層的RPA、MCP、A2A等能力,保證真正把規劃轉成可執行的動作。

大模型本身在通用層面存在一定的能力瓶頸,所以通用智能體需要在任務理解上掌握足夠多的領域知識和行業Know-How,以此來保證執行模塊可以覆蓋到PC端、網頁端、手機端,甚至各類定制化軟件系統。

實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署

因此,實在智能的目標是打造一個具備泛化能力且操作完備的企業級通用智能體。

在這樣的背景下,我們提出的實在Agent,就是一個面向流程自動化的通用智能體產品。這是一款能夠自主規劃流程,并能夠模擬人類在電腦、手機等系統中自動工作的通用智能體和軟件機器人。

和目前大家看到的Manus、Browser User等產品相比,我們的方案在整體架構上做了更深度的融合,不僅僅是云端控制,而是具備本地深度接入、執行以及可持續優化能力。

二、多層次算力與流程閉環:打造企業可控的自動化智能體

具體來看,實在Agent的底層架構分成幾個層次。第一層是基礎算力,包括私有化集群、云端算力資源、端側算力資源,都在企業不同部署需求下發揮作用。

第二層是算法層,除了垂直領域大模型和多模態大模型以外,也考慮在端側引入大模型加專家小模型的混合部署,保證本地可控性、降低推理延遲,同時節省算力成本。

再往上是數據層和知識層,包括企業自有的知識、外部的公共知識,通過能力層,比如RAG、屏幕理解、多模態理解、軟件操作能力,形成可執行的流程閉環。

在場景層,目前我們聚焦在四大主要方向:流程辦理、知識問答、數據分析、文檔處理。

比如流程辦理,不只是一個業務系統的自動化,而是可以跨越多個業務模塊,實現系統間的信息流轉和自動化接管。知識問答則通過RAG技術,讓大模型結合企業自有知識庫,形成真正可用的問答助手。數據分析里,支持跨系統信息整合、結構化輸出。文檔處理方面,則從文檔解析、抽取到自動審核,都做了深度集成。

在應用端,該智能體兼容OA、ERP、CRM、WMS這些企業核心軟件系統。

實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署

此外,實在Agent包括兩種形態:一是API-Agent工作流模式,將大模型、知識庫、文檔能力與RPA能力組合;二是UI-Agent模式,可通過一句話指令生成可執行工作流,由RPA組件自動完成操作。

三、核心模型與產品能力:支撐智能體可持續演進

核心技術層面,我們重點訓練了專屬的TARS大模型,在步驟拆解、組件映射上,相比GPT-4o、DeepSeek-R1、Qwen2.5-72B等在多個指標上超越,并且支持私有化部署。

實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署

第二是TARS-VL多模態大模型,它針對GUI界面和屏幕語義的理解,做了大規模訓練,包括元素定位、狀態判定、異常識別,在Mind2Web、ScreenSpot等標準數據集上取得較為顯著的成績,且提升GUI理解能力大約3個百分點。

第三,除外對兩個模型的強化以外,在落地過程中,我們還結合超過1000款企業常用軟件、上萬種業務場景做了預訓練,形成一個包含流程操作、數據采集、狀態識別等能力的知識庫和指令體系。

這樣即使面對陌生的軟件環境,也能快速適配并遷移操作策略,降低未知適配的成本。

在產品特性方面,實在Agent支持一句話生成流程,用戶不需要專業技能就能使用,具備極簡易用性。

它打通了AI與RPA工作流的整合,能真正跨系統完成數據流轉,本地RPA流程也支持一鍵跳轉到流程可視化編輯界面,方便后期優化。并且其還內置了大量工具和模板,包括網頁抓取、IPD文檔處理、網絡搜索、流程市場,方便企業快速復用并減少重復開發。

實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署

我們也建設了一個智慧中心,能對智能體、知識庫、工具進行上下架管理,并提供數據可視化分析,未來也能接入企業自研或者外部采購的大模型,靈活地按需配置。

四、跨端探索與端側優化:讓智能體觸達真實業務場景

智能體的能力需要算力的支持,無論是私有化算力集群、云端資源,還是端側硬件,都必須形成協同。

特別是在端側部署方面,客戶普遍要求數據安全可控,需要通過模型量化、裁剪及大模型和小模型的混合部署方案,兼顧性能和成本。此外,在算法層面可采用輕量模型預處理,結合大模型完成復雜推理,降低算力占用并優化執行效率。

實在智能還建設了數字員工運營平臺,將已執行過的流程和任務規劃經驗沉淀為長期記憶,供后續智能體規劃調用,實現持續優化。

在算力和需求雙向驅動的架構里,我們規劃的是服務端管理與下發、端側執行、以及通過數字員工運營平臺形成可持續優化的反饋回路。

在前后端系統聯調和部署加速方面,實在Agent也做了多種探索。

在PC端,我們與惠普基于ZBook系列AI PC產品,共同打造了一套適合企業場景的端側智能體解決方案。考慮到PC端相較一體機或工作站的算力限制,我們在方案中引入本地小型知識庫,以及大模型與小模型混合部署方案,用于屏幕識別與頁面處理。

歐陽小剛提到與惠普聯合打造的Z系列數字員工一體機,搭載實在智能的企業大腦服務,開箱30分鐘完成部署,核心業務與數據全程本地處理。

Z系列數字員工一體機基于HP Z8 Fury G5工作站,得益于四塊NVIDIA? RTX 5880 Ada的強大算力,輕松支持部門級與企業級的AI部署方案。

例如,在頁面理解上,將傳統CNN訓練的目標檢測能力和OCR能力,與多模態大模型進行任務路由,通過OCR或目標檢測對頁面進行預處理,再交由大模型做深入識別,從而加快整體推理過程并降低對高性能顯存的占用。

在手機端,我們也打造了“實在手機Agent”,包含兩種形態。一種是通過手機遠程控制PC端或云端的智能體體系,實現任務下發和狀態監控,方便企業移動辦公;另一種則在手機本地運行輕量化智能體,通過語音或觸控下發指令,完成信息采集、自動化任務處理等場景。

舉例來說,一個場景是通過智能體收集全網熱點信息并匯總成報告,另一個是為經常出差人員提供的生活助理功能,支持在12306等平臺通過語音操作完成電子發票申請和開票流程。

實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署

此外,我們還在探索基于云手機的批量運行方案,對于需要大規模并行操作的企業任務,例如多店鋪的銷售數據采集或評論抓取,實在Agent可以在云手機環境中實現大規模智能體并行調度,完成信息收集、匯總、分析等全流程能力。

車機端的探索也在持續推進,雖然目前仍處于早期階段,但我們嘗試通過視覺理解和模型調度來實現對車載第三方應用的操作,因為車機自帶的軟件通常可以被控制,但第三方軟件缺乏可用接口,需要通過純視覺的方式實現元素定位和功能觸發。這一原理與PC端和手機端的智能體能力邏輯是一致的。

實在智能歐陽小剛:Agent端側性能超GPT-4o 10%,一體機30分鐘開箱部署

在整體應用場景和客戶案例方面,目前我們落地較多的領域包括審核審計、數據挖掘研判、智能問答等。比如在與某商業地產企業合作的案例中,采用API Agent的工作流模式,打造了一個超級助理,整合知識查詢、數據分析和多智能體協同,實現從智能問數到多模型治理的端到端流程,顯著優化分析效率。

舉個具體例子,超級助理可以針對“米村拌飯”這樣的企業進行洞察分析,先理解分析需求,然后篩選合適的能力模塊,規劃并執行分析步驟,形成洞察報告。

另一個案例是與浙江菜鳥物流合作,圍繞人才補貼申請審核、智能偏倉預警等業務流程,結合智能體與RPA能力打造數字員工方案,實現大幅度節省人工人天的投入,提高整體審核效率和準確性。

客戶對引入數字員工后的ROI評估非常明確:就是原本需要多少人力和時間完成的任務,現在通過智能體自動完成,直接節約人力資源成本,達到提質增效的目標。

最后簡要介紹一下公司情況。實在智能成立于2018年,總部位于杭州,在北京、上海、廣州、深圳、日本東京、馬來西亞吉隆坡等地均設有分支機構。服務客戶主要涵蓋央國企、世界500強企業,在金融、制造、政務、電商等領域均有大量落地案例。

我們的愿景是,“讓智能體成為企業可信賴、可控、可持續優化的數字員工。”

謝謝大家。

以上是歐陽小剛演講內容的完整整理。