智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 漠影

農歷新年將至,各大互聯網平臺紛紛上線了春節營銷活動。除了集“五福”、集卡等經典玩法之外,今年也有不少與AI結合的新玩法出現,百度搜索就推出了“AI拜年”活動。

現在,只需要在百度搜索“祝福語”,再點擊“做賀卡”,按照自己的需求調整文案后,選擇“創意照片”,就能定制各種腦洞大開、趣味十足的新年祝福卡片。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

比如,你可以將自己的證件照上傳,制作成一張在天壇前的專屬的拜年海報。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

在文心一言4.0中,你還可以將家里的寵物照上傳,生成一張年味兒十足的“萌寵賀歲圖”。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

可以看到,AI不僅理解并準確呈現了文字提示詞中涉及的“福字”、“農家院”等文化元素,還將用戶上傳的寵物照、人像自然地融合進生成結果,生成效果與實際照片的契合度也很高。

這一生成效果得益于百度研發的iRAG(檢索增強的文生圖技術)。這項技術給大模型裝上了一個億級的“視覺外掛知識庫”,在生成圖片時根據提示詞等信息給大模型查找相關圖片資源,作為參考數據,進而提升圖像生成的準確性,還可降低制作成本。

接下來,就讓我們來看看,這一充滿節日氛圍的AI營銷背后,究竟蘊藏著什么樣的技術實力?

一、大模型深入理解中華文化,精準生成名勝古跡與文化元素

在文心4.0中,我們進一步體驗了“AI拜年”背后強大的生圖能力。讓人最眼前一亮的是,它展現出了對各種文化要素的精確理解。

例如,用戶可以讓文心4.0生成一幅“天壇雪景圖”,要求體現藍瓦屋頂和精美木結構的建筑風格,以及雪后靜謐的氛圍。

僅需等上幾秒,文心4.0就完成了圖像的生成。圖像內容與天壇的實際形象基本符合,準確度較高。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

而當其它的生圖模型接到這一任務時,卻出現了較為明顯的幻覺問題。下圖左側的ideogram-v2將天壇的層數生成錯了,而右側的imagen-3.0生成的天壇與周邊建筑和景觀的比例不符合實際情況。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

同樣的,我們還能讓文心4.0生成一幅“春節廟會”的場景,并指定其體現紅燈籠、舞龍舞獅、糖畫等傳統元素。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

對于中國傳統的民俗藝術,文心4.0也能準確把握到其風格特點。這副剪紙畫從顏色到風格上,都符合中國傳統審美。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

相同的提示詞到了其它生圖模型上,生成的風格完全不符合預期。左側的結果雖然嘗試還原傳統剪紙藝術,但魚的線條顯得生硬,缺乏靈動感。而右側的畫面則過于現代,顏色選擇也失去了剪紙藝術的精髓。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

除此之外,AI拜年功能和文心4.0都支持圖生圖的定制化玩法,可玩性很強,用戶幾乎可以將任意照片上傳,生成專屬的圖像。

將這只高冷的雪鸮交給文心4.0,它就能讓雪鸮穿上年味十足的服飾。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

用戶也能把自己隨手拍的白塔,搬到江南水鄉。文心的融合結果毫無違和感,白塔的細節全都得到保留。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

二、iRAG給大模型加裝知識庫,無縫銜接現實世界

上方案例中,文心4.0在生圖任務中實現的高準確性、幾乎無幻覺的表現,與背后百度自研的iRAG技術密不可分。

傳統文生圖模型在生成圖像時,往往依賴于模型自身的生成能力和有限的訓練數據,缺乏對特定文化元素和現實細節的精準把握,很容易生成不符合事實或邏輯的圖像,也無法覆蓋豐富的現實世界和多樣化的場景需求。

百度則將已經在文字生成領域經受住可行性驗證的RAG(檢索增強生成)技術,引入圖像領域,發展出iRAG技術,顯著提升生成內容的可靠性和準確性。

iRAG技術就仿佛給大模型加裝了一個“視覺外掛知識庫”,讓大模型能更好地理解用戶在指令中提及的“天壇”、“白塔”、“廟會”到底應該是一副怎樣的畫面。

百度搜索收錄了海量特定事物的可信圖片資源,這些資源通過iRAG技術,與文心4.0模型的能力結合,用豐富的參考數據確保生成圖像的真實可靠。

此外,這種生成與檢索結合的技術路徑,也能從多方面節省成本。iRAG讓模型不需要完全依靠自身知識生成圖像,減少了對大規模訓練數據的需求。同時,使用了iRAG技術的圖像生成“命中率”更高,從而減少修正和重新生成的需求,提高了整體效率。

同時,由于外部的數據庫可以實現更為及時的更新,iRAG能讓大模型始終保持對最新信息的敏感性和準確性,進一步提升成本效益和用戶體驗。

這種在準確性、成本效益方面實現的顯著進展,標志著AI生圖從娛樂工具向實用工具的本質轉變。

三、iRAG技術潛力顯現,或將推動AI生圖廣泛落地

自生成式AI浪潮興起后,圖像生成就一直是各大AI玩家發力的重點方向。這一賽道中既有Stable Diffusion這樣的開源模型,也有DALL·E、Imagen等來自巨頭的專有模型。這些模型憑借高度定制化的體驗和解放用戶視覺創意表達的潛力,吸引了不少個人與企業用戶的使用。

然而,在眾多生圖模型落地具體生產場景時,準確性是困擾用戶的關鍵問題。不準確的圖像需要反復修改或重新生成,不僅耗費時間和資源,還會降低生產效率;AI生成的錯誤產品圖片,還可能會影響客戶的購買意愿;更嚴重的是,錯誤或不當的圖像可能損害企業品牌形象,甚至引發法律糾紛,給企業帶來額外的風險。

而iRAG在準確性、成本效益上的優勢,恰好回應了專業用戶使用生圖模型時的種種痛點。這意味著這項技術不僅能應用于“AI拜年”這種娛樂性較強的營銷場景中,還具備影視制作、廣告設計、電子商務等更為廣闊的想象空間。

在去年的百度世界大會上,百度創始人李彥宏便展示了一張大眾汽車飛躍長城的畫面。圖中汽車的細節與真車別無二致,甚至還生成了汽車騰空而起時的煙塵。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

過去拍攝這樣一組汽車在特定場景的高質量宣傳海報,成本往往高達一二十萬甚至更多,而現在借助iRAG技術,創作成本幾乎可以忽略不計。

在電子商務場景中,iRAG可以用于提升產品展示的效果和用戶體驗。通過生成高質量、逼真的產品圖像,iRAG能夠幫助商家快速創建吸引眼球的商品展示頁面。

例如,商家上傳一張普通的產品照片,便可利用iRAG生成多場景的產品展示圖,甚至可以根據用戶需求添加節日元素或個性化背景。

自家萌寵拜年都能生成?百度生圖技術突破“準確性”最后一公里

iRAG讓商家無需實地拍攝,或是進行復雜的后期工作,也能獲取制作精良的宣傳物料。對中小商家來說,這項技術有望成為提高購買轉化率,帶來更高的流量和銷售額的利器。

在漫畫作品、連續畫本等視覺創意工作中,iRAG在一致性上的優勢,也能將創意人員從繁瑣的工作中解放出來,不必再花費大量時間在重復性的繪制和修改上,而是可以將大部分精力都投入到故事構思、角色塑造和藝術表達等更具創造性的核心環節中。

結語:iRAG技術有望開啟視覺創作新時代

具備低成本、低門檻、高準確性等優勢的iRAG生圖技術,有望為各行各業的視覺創作流程帶來重大變化。

想象一下,賣煎餅的老板也能輕松設計出高級感十足的菜單,小型企業無需依賴專業設計師即可打造品牌形象,教育機構可以快速生成生動的教學素材……

iRAG技術的潛力不僅限于提升效率,更在于讓創意和設計變得觸手可及,賦能每一個普通人和行業從業者。