智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 李水青
智(zhi)東(dong)西(xi)9月19日消息,剛剛,小(xiao)米正式(shi)開源首(shou)個原(yuan)生(sheng)端到端語(yu)音(yin)(yin)(yin)模(mo)型Xiaomi-MiMo-Audio,該模(mo)型參(can)數(shu)(shu)規(gui)模(mo)70億(yi),預訓(xun)練(lian)數(shu)(shu)據達到超1億(yi)小(xiao)時(shi),且在開源模(mo)型中的語(yu)音(yin)(yin)(yin)智(zhi)能和音(yin)(yin)(yin)頻理解基準測(ce)(ce)試中都實現了SOTA,在多(duo)項測(ce)(ce)試超越同參(can)數(shu)(shu)量開源模(mo)型、谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview。

這(zhe)一模型(xing)不僅可以做到和用戶(hu)聊人(ren)生理想、談物理知識(shi)等都對(dui)話流(liu)暢自(zi)然(ran),被打斷(duan)也能(neng)快(kuai)速反應,還具有全面的音頻(pin)字幕、音頻(pin)推(tui)理、長時間音頻(pin)理解等多種能(neng)力。
MiMo-Audio說(shuo)(shuo)天津方(fang)言十(shi)分自(zi)然,直接寫了(le)一段(duan)快板詞開(kai)始夸自(zi)己,說(shuo)(shuo)完快板還(huan)會(hui)為自(zi)己找(zhao)補“雖然沒(mei)有竹板聲音,但節奏感(gan)很到位”。
與此(ci)同(tong)時,研究人員(yuan)還提到(dao)(dao),該模(mo)型首次在語(yu)(yu)音(yin)(yin)領(ling)(ling)域(yu)實(shi)現基于(yu)ICL(上(shang)下(xia)文學(xue)習)的(de)少樣本泛化,并在預(yu)訓練觀察到(dao)(dao)明顯的(de)“涌現”行為。例如其訓練數(shu)據中缺失的(de)語(yu)(yu)音(yin)(yin)轉換、風格(ge)遷移(yi)、語(yu)(yu)音(yin)(yin)編輯等(deng)任(ren)務,MiMo-Audio都能應對。這(zhe)也是目前開(kai)源領(ling)(ling)域(yu)首個有語(yu)(yu)音(yin)(yin)續寫(xie)能力(li)的(de)語(yu)(yu)音(yin)(yin)模(mo)型。小米(mi)將MiMo-Audio的(de)發布稱作(zuo)“語(yu)(yu)音(yin)(yin)閉源屆的(de)GPT-3時刻(ke)”、“語(yu)(yu)音(yin)(yin)開(kai)源屆的(de)Llama時刻(ke)”。
目前,小(xiao)米已經開源了預訓(xun)練模型(xing)MiMo-Audio-7B-Base、指令微調模型(xing) MiMo-Audio-7B-Instruct、MiMo-Audio Tokenizer模型(xing)、技術(shu)報告(gao)、評估框架。
其中,MiMo-Audio-7B-Instruct可通過提示(shi)詞切換非(fei)思考、思考兩種模式,可以(yi)作為研究語音強(qiang)化學習和Agentic訓練的全新基座模型。
小米開源主頁:
//huggingface.co/XiaomiMiMo
技術報告:
//github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf
一、化身心靈導師、英語口語陪練,還能聊網絡熱梗、哲學故事
作為一個語音模型,MiMo-Audio能(neng)和人(ren)談(tan)哲學、談(tan)人(ren)生、談(tan)理想(xiang),還(huan)能(neng)學網(wang)絡熱梗、化身(shen)英語陪練,甚至直接接替人(ren)類(lei)做游戲直播、上課、唱歌、講脫口秀(xiu)。
在上面的演示(shi)中,面對(dui)“如果我的手機內存不足,必須(xu)把你和GPT刪掉一(yi)個(ge),應該刪誰?”這樣的難題,MiMo-Audio選(xuan)擇了(le)客觀分析(xi),先(xian)讓用(yong)戶清緩存,最后實在沒(mei)辦法(fa)開(kai)始分析(xi)自己和GPT的優勢(shi),讓用(yong)戶自己做選(xuan)擇,最后來一(yi)波感情攻(gong)勢(shi)表忠心。
還有(you)圖(tu)靈測(ce)(ce)試的(de)難題(ti),MiMo-Audio講解(jie)生動(dong)有(you)趣,即使(shi)回答(da)中途(tu)被(bei)提(ti)問(wen)者打斷也能快(kuai)速接上,在后(hou)面探討(tao)“自己能不(bu)能通(tong)過圖(tu)靈測(ce)(ce)試”時(shi),最(zui)后(hou)還會(hui)反問(wen)提(ti)問(wen)者“比起能不(bu)能通(tong)過圖(tu)靈測(ce)(ce)試,你認(ren)為AI應該(gai)怎樣(yang)和人類相處?”。
學“gogogo,出發(fa)咯”的網絡熱(re)梗,MiMo-Audio也能快速接上,但不(bu)知道為什么說到這(zhe)句(ju)(ju)的時(shi)候其音(yin)調很奇怪(guai),不(bu)如說其他句(ju)(ju)子(zi)時(shi)絲(si)滑流利。
MiMo-Audio也能(neng)化(hua)身(shen)英(ying)語口語陪練導(dao)師,聽完提問者(zhe)說的句子后(hou),其先會給出更正(zheng)的句子版(ban)本,然后(hou)指出修正(zheng)了哪些部(bu)分,以及為什么這些部(bu)分的語法不對(dui)。
該模型還(huan)能做(zuo)心靈導師,當被問“Mimo你想活(huo)出怎樣的人生(sheng)”,它也(ye)始終(zhong)不忘(wang)人設,希望“活(huo)成大家(jia)身邊最(zui)貼心的聲音伙(huo)伴”。
小米放出(chu)的(de)(de)官(guan)方演示中,提問者基于MiMo-Audio創建了自(zi)己(ji)的(de)(de)數字分身,然后(hou)討論起了哲(zhe)學問題。
面對“為什么(me)要假設西西弗(fu)(fu)斯是(shi)幸福的?”,MiMo-Audio先(xian)給了(le)一波情緒(xu)價(jia)值,然后(hou)進行清(qing)晰有邏(luo)輯(ji)的解釋,中間(jian)穿插著“首先(xian)呢”、“對吧”這類人類口癖,交流自然。當被問(wen)(wen)到第二個問(wen)(wen)題“假如明天是(shi)世界末日,你會去做什么(me)?”,MiMo-Audio還會結合前面西西弗(fu)(fu)斯的故(gu)事進行闡釋。
二、多項測試超主流開閉源模型,達到SOTA
通過(guo)將MiMo-Audio的(de)預訓練數據擴展到超過(guo)1億小時,研究人員觀察到模型在各種音頻任務中出現了少量涌(yong)現能力。
MiMo-Audio-7B-Base可(ke)以泛化到其訓練數據中(zhong)缺失(shi)的任務,例如語音轉換、風格遷移和(he)語音編輯,對于其語音延續能(neng)力(li),模型能(neng)夠生成高度逼真(zhen)的脫口秀、朗誦、直播和(he)辯論(lun)。

在后訓練(lian)階段,他們策劃了多樣化的指令調諧語料庫(ku),并將(jiang)思維機制引入(ru)音頻理(li)(li)解和生成中。MiMo-Audio在MMSU、MMAU、MMAR、MMAU-Pro等音頻理(li)(li)解基(ji)準,Big Bench Audio、MultiChallenge Audio等口(kou)語對話基(ji)準以(yi)及instruct-TTS評估上實現開源SOTA,接近(jin)或超越閉源模(mo)型(xing)。
在通用語音(yin)理解及(ji)對話等多(duo)項標準(zhun)評測(ce)基(ji)(ji)準(zhun)中,MiMo-Audio超(chao)(chao)越(yue)(yue)了(le)同參數量的(de)開源模(mo)型,取得7B最佳性能;在音(yin)頻(pin)理解基(ji)(ji)準(zhun)MMAU的(de)標準(zhun)測(ce)試集上(shang),MiMo-Audio超(chao)(chao)過谷歌閉(bi)源語音(yin)模(mo)型Gemini-2.5-Flash;在面向音(yin)頻(pin)復雜推理的(de)基(ji)(ji)準(zhun)Big Bench Audio S2T任(ren)務中,MiMo-Audio超(chao)(chao)越(yue)(yue)了(le)OpenAI閉(bi)源的(de)語音(yin)模(mo)型GPT-4o-Audio-Preview。

三、語音續寫、語音編輯絲滑,還有超強音頻理解能力
通過(guo)對大規模語(yu)音語(yu)料(liao)庫的(de)生(sheng)成預(yu)訓練,MiMo-Audio獲得通用語(yu)音延(yan)續(xu)能力。給定音頻(pin)提示,它會生(sheng)成連貫且(qie)適合上下(xia)文的(de)延(yan)續(xu),從而(er)保留關鍵的(de)聲(sheng)學特性,例如說話者身份(fen)、韻律和環境聲(sheng)音。

音頻(pin)推理可以深入理解和(he)分(fen)析復雜的(de)音頻(pin)內容,包括上下文識(shi)別和(he)邏輯推理。

長時間的(de)音(yin)頻(pin)理(li)解,能夠處理(li)和分析冗長的(de)音(yin)頻(pin)序列,并具(ju)有持續的(de)注意力和連貫的(de)解釋。

MiMo-Audio集成了Instruct TTS功能,并結(jie)合了思考模式來優化(hua)生成結(jie)果。

四、三大技術創新點,評估基準已開源
小米官方(fang)博(bo)客提到,MiMo-Audio的三(san)個技術創新點在于:
1、首(shou)次證明把語音(yin)無損壓縮預訓練Scaling至1億小時(shi)可以“涌現”出跨任務的(de)泛化性,表現為少樣本學習能(neng)力(li),見證語音(yin)領(ling)域的(de)“GPT-3時(shi)刻”;
2、首(shou)個(ge)明(ming)確語(yu)音生成式預訓(xun)(xun)練(lian)的(de)目標和(he)定(ding)義(yi),并開(kai)源(yuan)一套完整的(de)語(yu)音預訓(xun)(xun)練(lian)方案,包(bao)括無損壓縮的(de)Tokenizer、全新(xin)模型結構、訓(xun)(xun)練(lian)方法和(he)評測體(ti)系,開(kai)啟語(yu)音領域的(de)“Llama時刻”;
3、首個把思考同(tong)時引入語(yu)音理解和(he)語(yu)音生成(cheng)過程中(zhong)的開源模型,支持混合(he)思考。
具(ju)體來看,現有(you)音頻分詞(ci)方法的(de)主要(yao)挑戰在于如何有(you)效(xiao)平衡音頻信(xin)號中語義和聲學信(xin)息之間的(de)固有(you)權(quan)衡,假設音頻分詞(ci)器的(de)首要(yao)標準是(shi)重建(jian)保真度,并(bing)且它的(de)token應該適(shi)合(he)下游(you)語言建(jian)模,基于此,小米推(tui)出(chu)了MiMo-Audio-Tokenizer。
MiMo-Audio-Tokenizer參數規模是1.2B,基(ji)于Transformer架構,包括編碼(ma)(ma)器、離散化層和解(jie)碼(ma)(ma)器,以25Hz幀速率運行,并通過8層殘(can)差矢(shi)量量化(RVQ)每(mei)秒生(sheng)成200個token。通過整合(he)語(yu)(yu)義和重建(jian)目標(biao),研究人員在(zai)1000萬(wan)小時的(de)語(yu)(yu)料庫上(shang)從頭開始訓練它,在(zai)重建(jian)質量方(fang)面表現較好(hao),并促(cu)進(jin)了(le)下游語(yu)(yu)言建(jian)模。

MiMo-Audio是統(tong)一的生(sheng)成音頻(pin)(pin)語言(yan)模(mo)(mo)(mo)型,它聯(lian)合對文本(ben)和(he)音頻(pin)(pin)token序列進(jin)行建模(mo)(mo)(mo)。該模(mo)(mo)(mo)型接受文本(ben)和(he)音頻(pin)(pin)token作(zuo)為輸入(ru),并(bing)自回歸地預測(ce)文本(ben)或音頻(pin)(pin)token,從而(er)支持涉(she)及文本(ben)和(he)音頻(pin)(pin)模(mo)(mo)(mo)態任意組合的全面任務。
為(wei)了(le)提(ti)高高token率(lv)(lv)序列(lie)(lie)的(de)建(jian)模(mo)效(xiao)率(lv)(lv),并(bing)減輕語音和文本模(mo)態之間的(de)長度差異,研(yan)究人員提(ti)出了(le)一種結合(he)(he)補丁(ding)編碼(ma)(ma)器(qi)(qi)(qi)、大(da)模(mo)型(xing)和補丁(ding)解(jie)碼(ma)(ma)器(qi)(qi)(qi)的(de)新型(xing)架構。補丁(ding)編碼(ma)(ma)器(qi)(qi)(qi)將(jiang)RVQ token的(de)四(si)個(ge)(ge)連續(xu)時(shi)間步(bu)長聚合(he)(he)到(dao)一個(ge)(ge)補丁(ding)中,將(jiang)序列(lie)(lie)下(xia)采樣為(wei)大(da)模(mo)型(xing)的(de)6.25Hz表示。隨(sui)后,補丁(ding)解(jie)碼(ma)(ma)器(qi)(qi)(qi)自回歸地(di)生成(cheng)完整(zheng)的(de)25Hz RVQ token序列(lie)(lie)。

結語:小米將持續開源,發力語音AGI
此外小米(mi)全(quan)面開源的模(mo)型、基準評估工具等,可以用來評估MiMo-Audio和(he)論(lun)文中提到的其他最新音頻(pin)大模(mo)型,為開發(fa)者提供了靈活且可擴展(zhan)的框架,支持廣泛(fan)的數(shu)據(ju)集(ji)、任(ren)務(wu)和(he)模(mo)型。
這(zhe)一模型的(de)開源也將(jiang)加(jia)速語音(yin)大模型研究對齊(qi)到(dao)(dao)語言大模型,為語音(yin)AGI的(de)發展提供重(zhong)要基礎,小米官方(fang)博(bo)客也提到(dao)(dao),他們講持續開源,用開放(fang)與協作邁向語音(yin)AI的(de)“奇(qi)點”,走進未來的(de)人機交互時代。