智東西AI前瞻(公眾號:zhidxcomAI)
作者 | 江宇
編輯 | 漠影
智(zhi)東(dong)西AI前瞻5月30日(ri)報(bao)道,豆(dou)包APP近日(ri)推出實時視頻(pin)通話(hua)功能。用戶(hu)在電話(hua)界面開啟視頻(pin)畫面后,即可與豆(dou)包基(ji)于(yu)真實場景進行實時問答(da)互動 。
該功能(neng)將豆包的視覺理(li)解能(neng)力,從圖(tu)片(pian)場(chang)景擴展到視頻場(chang)景。去年底,豆包就曾(ceng)上線圖(tu)片(pian)理(li)解功能(neng),支(zhi)持上傳圖(tu)片(pian)后識別內容,包括理(li)解梗圖(tu)等 。
此次升級以期(qi)進一步降低用戶交互門(men)檻,提供“邊看邊聊”的體(ti)驗。
用戶在旅行(xing)過程中,可打開視頻通(tong)話,詢問所處景點的歷史背(bei)景、特(te)色(se)內容或路線規(gui)劃等。例如,在故宮參觀時,用戶可以通(tong)過視頻向“豆包”展示景點畫面,了解特(te)定宮殿的歷史故事(shi)、建筑特(te)色(se) 。

在博物(wu)館、美術館等場景,也可以通過視頻通話功能,隨時問豆包展品的背景信息(xi) 。

此實(shi)時視(shi)頻通話功能的實(shi)現,是基于豆包最(zui)新(xin)的視(shi)覺理解(jie)模型(xing)。該模型(xing)具備內容識(shi)別、理解(jie)推理和(he)內容描述能力,能夠融合視(shi)覺與語言輸入,進行綜合的深度(du)思(si)考(kao)和(he)創作。
此(ci)外,為提升(sheng)對話的準(zhun)確性(xing)(xing)與時效(xiao)性(xing)(xing),豆包視(shi)頻(pin)通話功能(neng)接(jie)入了(le)聯網搜索能(neng)力,以獲取互(hu)聯網最(zui)新信息(xi)。
智東西也(ye)在深度(du)體(ti)驗了豆(dou)(dou)包視頻(pin)通話(hua)的功(gong)能:打開(kai)豆(dou)(dou)包App后,點擊“對話(hua)”、“通話(hua)圖案(an)”、“開(kai)啟視頻(pin)通話(hua)”。

值得(de)一提的(de)(de)是,豆(dou)包電腦端(duan)也已(yi)同步開啟共(gong)享(xiang)視頻(pin)通話功能,多平臺覆(fu)蓋(gai),為用戶提供更(geng)靈活的(de)(de)選擇。
想知道(dao)豆包App的視(shi)頻通(tong)話功能有(you)多強(qiang)大?智(zhi)東西替你先(xian)試為快。
此前的(de)(de)ChatGPT就在網絡上掀起一陣(zhen)挑選(xuan)“報恩”榴蓮的(de)(de)熱潮。那(nei)么,比起穩(wen)定(ding)的(de)(de)圖片分析,在視頻(pin)(pin)通話中,豆包能(neng)否通過視頻(pin)(pin)幫你挑選(xuan)出最完美(mei)的(de)(de)榴蓮?

在實際體驗中(zhong),豆包確實能夠(gou)通過視頻畫面給出(chu)(chu)詳(xiang)細的榴蓮挑選建議,例如根據果殼上刺的特征進行判斷(duan),推測(ce)果肉的成熟度。這為(wei)像挑選榴蓮這類需要眼(yan)力和經驗的場(chang)景,提供了出(chu)(chu)人(ren)意料的AI輔助(zhu)。
AI和人類交互的(de)方式愈發多(duo)樣,也變得(de)越(yue)來越(yue)有趣(qu)。更多(duo)關于(yu)豆包的(de)新功(gong)能,用(yong)戶(hu)可以自行探(tan)索。