智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影

智東西AI前瞻7月29日報道,今日,豆包App宣布“視覺推理能力”全面升級,正式上線圖像分析的深度思考模式

用戶只需拍攝或上傳一張圖片,即可在“深度思考”模式下使用放大、裁剪、圖搜等功能,結合邊看圖邊發問的交互(hu)方(fang)式,實現更高精度的圖片語義理(li)(li)解和推理(li)(li)能力(li)。

這(zhe)一升級不僅(jin)支持識別圖(tu)(tu)中(zhong)物體,更進一步延伸到(dao)對圖(tu)(tu)像背后場景的(de)理解判斷。

一、拍圖就能提問,豆包開啟“邊看圖邊思考”新交互

在本次升級中,豆包新增的“深度思(si)考(kao)”模(mo)式,支(zhi)持用戶圍(wei)繞(rao)圖(tu)片本身(shen)進(jin)行自(zi)由(you)提(ti)問。

無論是拍攝街景、上傳老照片,還是記錄物件,都可以直接向豆包提出“這是什么”“在哪里”“屬于哪個年代”等問題,系統會結合圖像內容進行推理分析,給出解釋

功能入口已集成(cheng)在豆包App對話界面中,用戶選擇“深(shen)度思考”,上傳(chuan)圖片后即可觸發分(fen)析流程(cheng)。

“以圖搜(sou)圖”模式下,豆包(bao)還可自動激活圖像放大、裁剪、圖片搜(sou)索等(deng)工(gong)具,幫助用(yong)戶進一(yi)步觀(guan)察細節,提(ti)升問(wen)答(da)準(zhun)確性(xing)。

二、一次完整旅行對話:豆包從“在哪”到“帶啥相機”都能幫你安排

這次(ci)體驗中,智東(dong)西模擬了一(yi)次(ci)“從照片出發(fa)規劃(hua)旅行”的完整對話流程。

1、上傳街拍圖,豆包識別出“你在哪”

第(di)一(yi)步,智東(dong)西上傳了一(yi)張(zhang)街頭(tou)照(zhao)片,并詢問“我在哪?”。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆包在(zai)未提供任(ren)何位置信息的(de)情況下,識別出(chu)畫面為“上海(hai)的(de)武康(kang)大樓(lou)附近”,并(bing)補充說明(ming)其為“上海(hai)具有代表性(xing)的(de)歷史建筑,也是網紅(hong)打卡地(di)”。

進一步追問“這幅圖是不是照騙”“暑假適合去嗎”,豆包的回答也較為全面:指出照片中建筑外觀與實景一致,但構圖和光線可能增強了美感;同時給出(chu)(chu)天氣、人流、交(jiao)通等方面的旅(lv)游建議,提醒避(bi)高溫、錯峰出(chu)(chu)行、準(zhun)備防暑物品(pin)等,具有實際參(can)考意義(yi)。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

2、上傳江南街景圖,豆包識別景點,并生成2天1夜旅行攻略

接著,智(zhi)東西上傳了一(yi)張(zhang)江南水鄉風格的街景圖,想讓豆包(bao)生成“換場”的旅游攻(gong)略。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆包識別出這是(shi)“蘇州平(ping)江歷史(shi)文化街區(qu)(平(ping)江路)”,并描述(shu)其(qi)“河道蜿蜒、白墻黛瓦、搖櫓船(chuan)穿行其(qi)間”的場(chang)景(jing)特征。

隨后提出(chu)“我想同時去(qu)這兩個地方,如何安排(pai)行程(cheng)?”的問(wen)題后,豆包生成了(le)一份詳盡的“武康(kang)大(da)樓+平江(jiang)路(lu)2天1夜”旅(lv)行攻略。

內容覆蓋每日路線、跨城交通、拍照點位、文藝店鋪、餐館推薦、防暑提醒等細節,結構清晰,實用性強(qiang)。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

整體來看,豆(dou)包在“圖(tu)片(pian)分(fen)析”模式下,具備地點識(shi)別能力,還能基于多個目標地點,串(chuan)聯生(sheng)成(cheng)完整的旅行計劃,展現出較強(qiang)的上下文理解與推理能力。

3、拍CCD攤位,豆包識別型號并推薦適合“出片”的機型

在(zai)確定了(le)行程后,智東西又上(shang)傳了(le)一張街邊(bian)復古相機攤的圖(tu),想讓豆包(bao)推薦(jian)適(shi)合拍(pai)照的機型。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

豆包(bao)迅速識(shi)別(bie)出(chu)圖(tu)中主(zhu)要為(wei)“膠片傻(sha)瓜機(ji)”“旁軸(zhou)相(xiang)機(ji)”等類型,并準確指出(chu)Olympus μ2、Canon Autoboy D5、Leica CM等具體型號,細節識(shi)別(bie)能力(li)表(biao)現較為(wei)扎實。

此后,圍繞“如何選出片效果好的相機”的問題,豆包還提供了分層級的購機建議,包括新手入門、進階玩家的不同選擇,并對操作難度、風格偏好、預算區間等做出說明。

它還特別提示了購買二手機時需檢查快門(men)、鏡頭等細節(jie),并估(gu)算了拍攝和沖洗膠片的(de)實(shi)際成本。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

在這類物(wu)品識(shi)別與使用(yong)建(jian)議任務(wu)中,豆包(bao)已初步(bu)具備“看圖-識(shi)別-建(jian)議”閉環(huan)能力,尤(you)其適用(yong)于旅游類消費決策場景。

三、冷門景點識別挑戰:這回豆包也拿不準

為測試(shi)在(zai)“非熱(re)門地標+自(zi)然景(jing)觀”條件下的表現,智東西(xi)還上傳了(le)一張(zhang)南京止馬嶺的實(shi)拍照片。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

這張圖沒有明顯的(de)地標建筑或(huo)文(wen)字提(ti)示(shi),視覺線(xian)索相(xiang)對稀少。豆包未能識別出“止馬嶺”這一具(ju)體地點,但結(jie)合杉樹的(de)外形特征、水中生(sheng)長環(huan)境(jing)以及秋季色(se)彩,判斷(duan)其為“池杉或(huo)水杉濕(shi)地景觀”。

調(diao)用(yong)10篇(pian)資(zi)料后,豆包推測可能(neng)拍攝(she)于(yu)“成都白鷺(lu)灣濕地公(gong)園(yuan)”,并在參考結果中(zhong)提及(ji)“常州翠竹公(gong)園(yuan)”“南京止馬嶺”等相似景點——雖未命中(zhong),但說明其在模糊(hu)場景下具(ju)備一定類比和搜索(suo)整合能(neng)力(li)。

豆包學會看圖思考了,一張圖就能幫你規劃暑假出行

不過,從整體判斷來看,豆包對于這類非網紅、無標識的自然景觀,其定位準確性仍有限。

結語:視覺能力升級,讓圖片成為“主動提問入口”

通過(guo)此次體驗可以(yi)看(kan)到(dao),豆包(bao)在視覺推理能力升(sheng)級后,已不(bu)再局限于“看(kan)圖(tu)識物”,而是圍繞圖(tu)片內容展開多輪(lun)對話式分(fen)析,支持定位、推薦、規劃(hua)、選品等復雜需(xu)求(qiu)。

無論是(shi)上傳(chuan)旅游(you)照片判(pan)斷城市位置、分析圖中場景(jing)是(shi)否值(zhi)得游(you)覽(lan),還是(shi)識別(bie)老物件類型(xing)并給(gei)出(chu)購買建議,豆包(bao)均展示出(chu)清(qing)晰(xi)的答案(an)與解釋(shi)。

對于用(yong)戶而言,這(zhe)種(zhong)“邊看圖(tu)邊問圖(tu)”的(de)交(jiao)互方式,不再要求精(jing)準(zhun)描述,而是讓圖(tu)像本(ben)身成為(wei)入口,推(tui)動AI推(tui)理主(zhu)動向前走一步(bu)。

雖然在(zai)部分冷門場景下還(huan)存在(zai)判(pan)斷(duan)不(bu)準、搜索依賴重的問題,但豆(dou)包在(zai)圖片(pian)分析中(zhong)的表現已初步(bu)具備(bei)“能看(kan)圖、敢思(si)考、會回答”的雛形,未來(lai)或將(jiang)向更深入的圖像語(yu)義(yi)理解能力演進。