AI應用風向標(公眾號:ZhidxcomAI)
作者|江宇
編輯|漠影
智東西9月28日報道,騰訊今日正式開源其全新一代原生多模態圖像生成模型“HunyuanImage 3.0”。
該模型參數規模達80B,是當前業界參數最大、能力最強的開源生圖模型之一,具備復雜語義理解、文字生成與世界知識推理等能力,其效果對標業界頭部閉源模型。
作為首個工業級原生多模態開源模型,它能夠基于長文本指令完成結(jie)構明確、語義復(fu)雜(za)的圖像生成,在構圖、排版、美學風格等(deng)方面也展(zhan)現出擬人化的判斷力(li)。
模型體驗入口(需(xu)要通過(guo)電腦端(duan)訪問):
//hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289
騰訊混元官網:
//hunyuan.tencent.com/image
Github:
//github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face:
//huggingface.co/tencent/HunyuanImage-3.0
一、體驗:做出“雞排哥”的金句海報,配色神似老干媽
最近在(zai)社交平臺上(shang),來(lai)自江西景(jing)德鎮的“雞排哥”李(li)俊(jun)永突(tu)然走紅(hong)。這(zhe)次智東西拿到了HunyuanImage 3.0模型的體驗權限,試著讓它完整復刻這(zhe)位“雞排主理人”的一天(tian)。
1、四點半前不要排隊?告示得貼出來
李俊永有個(ge)規(gui)矩,四點半前不(bu)接散客(ke),只(zhi)賣學生。我們第一步輸入指令,希望模(mo)型生成一個(ge)“還沒正式(shi)開攤(tan)”的告(gao)示:
Prompt:“需(xu)要一張貼在簡陋小吃推車上的(de)告示牌,上方(fang)有(you)一個卡通雞排攤主頭(tou)像,黑(hei)色頭(tou)發,手(shou)里拿著雞排。牌子中間用黃色中文寫著:四點半后不(bu)接散客、學生便宜1元、請(qing)提(ti)前打開塑(su)料袋”

生成效果:模型(xing)成功還(huan)原(yuan)出“簡陋小吃推(tui)車”的(de)現(xian)實質感,攤位與(yu)海報的(de)細(xi)節處(chu)理得很(hen)自然,海報的(de)邊邊角(jiao)角(jiao)也超具真實感,關鍵的(de)是海報上的(de)中文標語清晰完整,沒有出現(xian)亂(luan)碼(ma)。
比起“能(neng)畫”,這(zhe)一(yi)步主要驗證它能(neng)不能(neng)把“世(shi)界(jie)知識+規定文字”都(dou)反映出來,這(zhe)組小測試通過(guo)。
2、學生放學排長隊,“袋子文學”上線
四(si)點(dian)半一(yi)過,學生下課,雞排哥正式開麥:“請打開你(ni)的袋子,我需要的是速度。”于是我們給(gei)模型出題(ti),模擬高峰期攤位和金(jin)句(ju)喊麥。
Prompt:“一(yi)個簡陋小吃推車正(zheng)值高峰時段,排滿穿校服的學生,攤主(黑(hei)色頭發、白(bai)色上衣、身型較瘦)動作麻利,一(yi)邊炸雞(ji)排喊話說‘請打(da)開你的袋子’”

生成效果:這一幕的(de)還(huan)原度相(xiang)當高——學生身(shen)上(shang)校服沒錯、攤主在操作(zuo)油(you)鍋、甚至(zhi)人物(wu)張(zhang)(zhang)嘴(zui)講話(hua)的(de)動態都能(neng)看(kan)出是喊話(hua)的(de)語(yu)(yu)氣(qi),有幾(ji)張(zhang)(zhang)圖頗有“雞排哥”的(de)神韻。可見(jian),該模型支持復雜語(yu)(yu)義下(xia)的(de)場景推理。
3、雞排海報也講人設?來點主理人式金句
既然攤主走紅的原因之(zhi)一是“嘴上有貨”,那我們就搞一張“雞排哥語(yu)錄海報(bao)”。
Prompt:“一(yi)個豎版簡陋小吃(chi)推車的海報(bao),背(bei)景是炸雞排特寫,中央是雞排主(zhu)理(li)人頭像(黑色頭發、白色上(shang)衣(yi)、身型(xing)較瘦),底(di)部大字寫著‘吃(chi)飽了還想(xiang)吃(chi)?對(dui)自己好(hao)點,再好(hao)一(yi)點點’,整體風(feng)格紅黃為(wei)主(zhu),像街頭招貼”

生成效果:模型(xing)的文字(zi)排(pai)版能力很(hen)驚艷,字(zi)體(ti)、布局、配色(se)都高度(du)貼(tie)近現實街(jie)頭風,還沿用了“老干媽(ma)”的海報風格。
4、“雞排世家”營業中
現實中,雞(ji)(ji)排攤后來成了(le)“雞(ji)(ji)排世(shi)家”,老板本人負責主炸,“雞(ji)(ji)排嫂”、“雞(ji)(ji)排奶(nai)”、“雞(ji)(ji)排舅”都來幫(bang)忙。我們(men)來還原這場“雞(ji)(ji)排總動(dong)員”:

Prompt:“一個熱鬧的簡陋(lou)小吃推車前,四(si)位家人(ren)正在分工合作,攤主(黑色(se)頭發、白色(se)上(shang)衣、身型較瘦)炸雞(ji)排,妻子(zi)協助制作雞(ji)排,母親(qin)負責給雞(ji)排裹(guo)粉,小舅子(zi)腌制雞(ji)排,有很多客人(ren)邊拿著(zhu)手機邊等(deng)待”
生成效果:模(mo)型準確生成了多角色主體,服裝風格統一,動(dong)作自然(ran)。該模(mo)型基于語義理解進行(xing)場景還(huan)原(yuan)和(he)排(pai)布的能力,還(huan)是很在線的。
5、6元雞排能吃出600元服務?圖也能整出來
雞排(pai)(pai)哥有句名言:“6元(yuan)(yuan)雞排(pai)(pai)吃出了60元(yuan)(yuan)的情(qing)緒價值和600元(yuan)(yuan)的服務體驗。”我們就(jiu)用它做最后兩版“廣告圖(tu)”,一個重情(qing)景,而另(ling)一個重產品。
Prompt 1:“一位顧客坐在長(chang)椅上(shang)吃(chi)雞排(pai),表情滿足(zu),背景是夜色攤位燈光,畫(hua)面中間(jian)用金色手寫(xie)(xie)字寫(xie)(xie)著(zhu):‘6元雞排(pai),600元體驗’,整體氛(fen)圍像品牌廣告(gao)大片”
Prompt 2:“雞排(pai)(pai)廣(guang)告,手寫廣(guang)告語:‘6元(yuan)雞排(pai)(pai),600元(yuan)體(ti)驗’,整體(ti)氛圍像(xiang)奢侈品(pin)廣(guang)告大片(pian),奢華有格(ge)調”

生(sheng)成效果:這一步體(ti)現了HunyuanImage 3.0的“構圖、情緒(xu)(xu)、文字”三項(xiang)能力:畫面情緒(xu)(xu)把握得準(zhun)、手寫(xie)字體(ti)無亂碼、整體(ti)構圖自(zi)然。
6、雞排哥的“梗圖宇宙”,出圖啦!
在(zai)完成(cheng)“語錄海(hai)報”和“品牌廣(guang)告”之后,我們(men)進(jin)一步測(ce)試(shi)模型是否(fou)能搞定(ding)雞排(pai)哥(ge)在(zai)網(wang)絡上(shang)流傳(chuan)的梗(geng)圖?
Prompt 1:創作一(yi)張職場(chang)梗(geng)圖表情(qing)包,畫面核心是一(yi)位忙碌(liu)的(de)(de)雞排攤(tan)主(黑(hei)色頭發(fa)、白色上(shang)衣、身(shen)(shen)型(xing)偏(pian)瘦(shou),動(dong)作麻利,在小(xiao)吃攤(tan)前烹飪),周圍(wei)環繞著標注(zhu)身(shen)(shen)份的(de)(de)人群(qun):‘同(tong)事’‘客戶’‘大(da)領(ling)(ling)導(dao)’‘小(xiao)領(ling)(ling)導(dao)’‘其他(ta)部門同(tong)事’,上(shang)方配黃色大(da)字(zi)文(wen)(wen)案:‘當距離(li)下班還有2小(xiao)時(shi),突然有一(yi)大(da)堆工作找(zhao)上(shang)門,而你只(zhi)想準時(shi)下班’,中間標注(zhu)‘我:’指向忙碌(liu)的(de)(de)攤(tan)主。整體風格為現(xian)實(shi)場(chang)景與文(wen)(wen)字(zi)標注(zhu)結合的(de)(de)搞笑梗(geng)圖,色彩貼(tie)近真(zhen)實(shi)街景,人物動(dong)作突出忙碌(liu)感,文(wen)(wen)字(zi)排版清晰醒目,營造職場(chang)忙碌(liu)又無奈的(de)(de)情(qing)緒。

我們將指令稍加改動,就能讓主體變(bian)成海(hai)綿寶寶,整體畫風也毫(hao)無(wu)違和。

同(tong)樣,雞(ji)排(pai)哥(ge)上班的“炸場圖”也能(neng)搞(gao)定。

Prompt 2:創作一張街(jie)頭(tou)(tou)(tou)梗圖(tu)(tu)(tu)表情包,畫面核心是一位騎淺藍色(se)(se)三輪電(dian)動(dong)(dong)車的(de)攤主,頭(tou)(tou)(tou)戴灰色(se)(se)頭(tou)(tou)(tou)盔,身穿白色(se)(se)T恤,車上載著(zhu)‘回頭(tou)(tou)(tou)客 雞柳雞排’的(de)紅(hong)色(se)(se)招牌(帶‘智造(zao)美(mei)味 成就(jiu)經典’黃色(se)(se)標語和美(mei)食(shi)圖(tu)(tu)(tu)片(pian))。周圍有(you)舉(ju)著(zhu)手機拍攝的(de)人群,背景有(you)紅(hong)色(se)(se)遮陽傘(san)、寫著(zhu)‘衢州鴨頭(tou)(tou)(tou)’的(de)招牌和綠樹。整(zheng)體風格為寫實街(jie)景與市(shi)井氛(fen)圍結合的(de)搞(gao)笑梗圖(tu)(tu)(tu),突出(chu)攤位的(de)復古感和人群的(de)圍觀(guan)互動(dong)(dong)感,色(se)(se)彩(cai)鮮艷(yan)充滿煙火氣,營造(zao)出(chu)網紅(hong)小吃攤的(de)熱(re)鬧場景。

生(sheng)成(cheng)效果(guo):在(zai)這(zhe)一組(zu)體驗(yan)中,模(mo)型不僅(jin)能準確生(sheng)成(cheng)主(zhu)體文字,還能在(zai)背景(jing)和多(duo)主(zhu)體場景(jing)中保持長文本渲染的完整(zheng)性與一致性。
HunyuanImage 3.0在這個“雞排哥的(de)復刻挑戰(zhan)”里(li),成(cheng)功完成(cheng)了多個維(wei)度的(de)能力驗證:
1、對現實人物設(she)定和社會場景的知識推理力
2、對圖(tu)中(zhong)文字生成能力
3、對(dui)復雜(za)語義的理解(jie)能力
4、美學控制力
下(xia)次如果雞排主(zhu)理人考慮拓展品牌,或許真可(ke)以考慮這位“AI美工助理”了。
二、不是拼湊,而是“一個模型”在理解和生成
HunyuanImage 3.0是業內(nei)首個開源的(de)工業級原生(sheng)多模(mo)態圖像(xiang)(xiang)模(mo)型。與(yu)傳統通過(guo)(guo)“語言模(mo)型+圖像(xiang)(xiang)模(mo)型”拼接實現圖文(wen)理解不同,它(ta)采用統一(yi)的(de)架構來處理文(wen)字、圖像(xiang)(xiang)等多模(mo)態輸入輸出,生(sheng)成過(guo)(guo)程由一(yi)個模(mo)型內(nei)部完(wan)成。
這使得模型具備了類人“認知式”圖像構建能力。以“雞排哥”體驗中的例子來看,用戶無需分步驟拆解每個細節,模型即可根據整段語義自動推理出“誰在做什么、什么時候做、要傳達什么”。比如在“攤主喊話學生打開袋子”的畫面中,模型不僅還原了人物動作,還捕捉到“喊話”的嘴型與“高峰時段”的攤位人流,體現出模型(xing)在處理“時間、身份(fen)、行為(wei)”三重語義時的(de)統一理解能力。
這背后依賴的是騰訊團隊自研的Hunyuan-A13B基座模型,聯合50億圖(tu)(tu)文(wen)對(dui)、視頻(pin)幀、圖(tu)(tu)文(wen)交織內容與6T語(yu)料進行混合訓練(lian),協同優(you)化語(yu)義(yi)理解、知識調用、視覺生成等能(neng)力。
在實測中,HunyuanImage 3.0表現出(chu)兩個重要能(neng)力(li)的(de)結合:一是(shi)圖中文字的(de)準確生成,二是(shi)整體畫面的(de)美學質(zhi)感(gan)。
針對(dui)“雞排哥語(yu)錄”與“6元(yuan)雞排,600元(yuan)體驗”等視(shi)覺(jue)海報類內(nei)容,模型不僅生成了(le)排版合理(li)、無亂(luan)碼(ma)的中文(wen)大字,文(wen)字與畫(hua)面主題也能高度貼合,都(dou)呈現出一定的“設計意識”,而非單純(chun)的圖文(wen)疊加。
這說明HunyuanImage 3.0不僅(jin)能“讀(du)懂”文(wen)(wen)字(zi)內容,還能“設計”如何呈現文(wen)(wen)字(zi)。這類圖文(wen)(wen)融合能力,使其在(zai)廣告、電(dian)商、宣傳海報等垂類應用(yong)中具備直(zhi)接可用(yong)性(xing)。
結語:AI生圖,不只是“能畫”那么簡單
從“還沒(mei)開攤的(de)雞排車”到“600元情緒價值的(de)廣告大片(pian)”,HunyuanImage 3.0在一次(ci)真實的(de)雞排哥復(fu)(fu)刻挑戰中,展現出(chu)對復(fu)(fu)雜語義、社會(hui)場景、視覺美學(xue)一定的(de)把(ba)控力(li)。
對于需要快速生成商業海報、場景圖、情緒表達圖的用戶而言(yan),HunyuanImage 3.0可(ke)以是(shi)一個穩得(de)住的創作(zuo)助手(shou);而對希望深度(du)定制視(shi)覺風格的開(kai)發者(zhe)來(lai)說(shuo),作(zuo)為開(kai)源模型,它也具備(bei)進一步微調與衍(yan)生開(kai)發的空間。