智東西(公眾號:zhidxcom)
作者 |? 云鵬
編輯 |? 李水青

智東西8月4日消息,剛剛,小米公司正式開源聲音理解大模型MiDashengLM-7B。其聲音理解性能在22個(ge)公(gong)開評測集上刷(shua)新多模態大模型(xing)最好成(cheng)績(SOTA),單樣本推理的首Token延遲(TTFT)為業界先進模型的1/4,同等顯存下的數據吞吐效率是業界先進模型的20倍以上。

剛剛,小米又開源一大模型,22個公開測評SOTA

具體來看,MiDashengLM-7B基于Xiaomi Dasheng作為音頻編碼器Qwen2.5-Omni-7B Thinker作為自回歸解碼器,通過(guo)通用音(yin)頻(pin)描述(shu)訓練(lian)策(ce)略,實現了對語音(yin)、環境聲音(yin)和音(yin)樂(le)的統一(yi)理解。

此前(qian)小(xiao)米(mi)于2024年首次(ci)發布(bu)Xiaomi Dasheng聲音基座(zuo)(zuo)模型,此次(ci)開(kai)源(yuan)的(de)7B模型是該(gai)模型的(de)擴展。目前(qian)該(gai)系列模型在小(xiao)米(mi)智能家(jia)居、汽車座(zuo)(zuo)艙等(deng)領域有30多個落地應用(yong)。

小米稱,音頻理解是構建全場景智能生態的關鍵領域。MiDashengLM通過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什么事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。

MiDashengLM的訓練數據由100%公開數據構成。

GitHub主頁:
//github.com/xiaomi-research/dasheng-lm
技術報告:
//github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
模(mo)型(xing)參(can)數(shu)(Hugging Face):
//huggingface.co/mispeech/midashenglm-7b
模(mo)型參(can)數(魔搭社區):
//modelscope.cn/models/midasheng/midashenglm-7b
網頁Demo:
//xiaomi-research.github.io/dasheng-lm
交互Demo:
//huggingface.co/spaces/mispeech/MiDashengLM

一、支持跨場景音頻理解能力,音頻編碼器多項關鍵測試超越Whisper

MiDashengLM在音(yin)(yin)頻描述、聲(sheng)音(yin)(yin)理解、音(yin)(yin)頻問答任(ren)務中有比(bi)較明(ming)顯的優勢:

剛剛,小米又開源一大模型,22個公開測評SOTA

▲音(yin)頻(pin)描述任務性能(FENSE指標)

在音頻描述任務中,MiDashengLM-7B比Qwen、Kimi同類7B模型性能(neng)更(geng)強。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲聲音理解任務性能

在聲音(yin)理解任(ren)務中,MiDashengLM-7B除FMA、VoxCeleb-Gender項(xiang)目均領先于Qwen的7B模型(xing),與(yu)Kimi的7B模型(xing)相比,僅(jin)有VoxCeleb-Gender項(xiang)目略微落后。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲語音識別任務性能(neng)(WER/CER指標)

在(zai)(zai)語音識(shi)別任(ren)務中,MiDashengLM-7B的主要優勢(shi)在(zai)(zai)于GigaSpeech 2,在(zai)(zai)其他兩組測試中Qwen和(he)Kimi有一定優勢(shi)。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲音頻問答任務性能

其中(zhong),Xiaomi Dasheng音頻編(bian)碼器是MiDashengLM音頻理解能力的重要來源。在用于評估編(bian)碼器通用能力的X-ARES Benchmark上,Xiaomi Dasheng在多(duo)項(xiang)關鍵(jian)任務上優于作為Qwen2.5-Omni、Kimi-Audio等模型音頻編(bian)碼器的Whisper。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲音頻編碼器在X-ARES Benchmark上的分數對(dui)比

除(chu)了聲音理解,Xiaomi Dasheng還可以用于音頻生成任務,如(ru)語音降噪、提取和增強。

二、推理效率提升,單樣本4倍加速與百倍并發支持

MiDashengLM的(de)訓練和推理(li)效率是其另一項(xiang)優勢。對于(yu)單(dan)個樣本推理(li)的(de)情形,即batch size為1時(shi)(shi),MiDashengLM的(de)首個token預(yu)測(ce)時(shi)(shi)間(TTFT)為Qwen2.5-Omni-7B的(de)1/4。

批次處理(li)(li)時(shi)(shi),在80GB GPU上(shang)處理(li)(li)30秒音頻并(bing)生(sheng)成100個token的測試(shi)中(zhong),MiDashengLM可以把batch size設(she)置為(wei)512,而Qwen2.5-omni-7B在batch size設(she)置為(wei)16時(shi)(shi)即出(chu)現顯存溢出(chu)(OOM)。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲Batch size=1時TTFT和GMACS指標(biao)對(dui)比(bi)

在(zai)實(shi)際部署(shu)中,MiDashengLM在(zai)同等硬件(jian)條件(jian)下(xia)可支(zhi)持更多的(de)并發(fa)請求(qiu)量,降低計算(suan)成本。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲80G顯存環境(jing)下模(mo)型每(mei)秒可處理(li)的30s音頻個數(shu)

這背(bei)后,MiDashengLM基于(yu)Xiaomi Dasheng架構,在維持(chi)音頻(pin)理解核心性能指標基本持(chi)平(ping)的前提(ti)(ti)下(xia),通過優(you)化音頻(pin)編碼(ma)器設計,將其輸出(chu)幀率從Qwen2.5-Omni的25Hz降(jiang)(jiang)至5Hz,降(jiang)(jiang)幅80%,降(jiang)(jiang)低(di)了計算(suan)負載并實現(xian)了推理效率提(ti)(ti)升。

三、訓練范式改變:從碎片化轉錄到全局語義刻畫

MiDashengLM采用(yong)通(tong)(tong)用(yong)音(yin)頻描述(shu)對(dui)齊范式,避免(mian)了用(yong)ASR轉錄(lu)數據對(dui)齊僅關注語(yu)音(yin)內容而丟棄環境聲音(yin)和(he)音(yin)樂信息,且無法(fa)捕捉說話人情感、空間(jian)混響(xiang)等關鍵聲學(xue)(xue)特征(zheng)的(de)局(ju)(ju)限,通(tong)(tong)用(yong)描述(shu)對(dui)齊策略通(tong)(tong)過非單(dan)調的(de)全局(ju)(ju)語(yu)義映射,迫(po)使模型學(xue)(xue)習音(yin)頻場景的(de)深(shen)層語(yu)義關聯。

該(gai)方法(fa)可(ke)以使用幾乎所有的數據(ju),包括噪聲或非(fei)語音內容,而基于(yu)ASR轉錄的方法(fa)會(hui)丟棄非(fei)語音數據(ju)如環(huan)境聲或音樂(le),導致(zhi)數據(ju)利用率低下,基于(yu)ASR的對齊方法(fa)在ACAV100M-Speech數據(ju)集上會(hui)損失90%潛在有用數據(ju)。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲MiDashengLM訓練(lian)框架

MiDashengLM的訓練數據通過(guo)多專家(jia)(jia)分析管道生成(cheng):首先對原始(shi)音(yin)頻使用(yong)各種專家(jia)(jia)模型作語音(yin)、人聲、音(yin)樂和環(huan)境聲學的細(xi)粒度(du)標注,包(bao)括使用(yong)Dasheng-CED模型預(yu)測2秒粒度(du)的聲音(yin)事件,再通過(guo)DeepSeek-R1推理大模型合成(cheng)統(tong)一描述(shu)。

全部訓練(lian)數(shu)據(ju)的原始標(biao)簽(qian)在預訓練(lian)中被棄用,只采用利(li)用上述流(liu)程(cheng)生(sheng)成的新(xin)的豐富文本描述標(biao)簽(qian),以(yi)迫使模型學習更豐富全面(mian)的聲音(yin)信息。

其中,來(lai)自ACAV100M的開源(yuan)數據集經過(guo)上述流程重新(xin)(xin)標注后,形成(cheng)了新(xin)(xin)的ACAVCaps訓練集和MECAT Benchmark。MECAT Benchmark已于近(jin)期開源(yuan),ACAVCaps數據集將在(zai)ICASSP論文評審后開放下載。

剛剛,小米又開源一大模型,22個公開測評SOTA

▲ACAVCaps訓練(lian)數據集構(gou)建流(liu)程(cheng)

四、全棧開源,透明可復現

此次MiDashengLM訓(xun)練數(shu)據100%來自公開(kai)數(shu)據集(ji),涵蓋五類(lei)110萬(wan)小(xiao)時資(zi)源(yuan),包(bao)括(kuo)語(yu)音識別、環境聲(sheng)音、音樂理解、語(yu)音副語(yu)言和問答(da)任(ren)務等(deng)多項(xiang)領(ling)域。

MiDashengLM完整公開了(le)77個數(shu)據(ju)源(yuan)的詳細配(pei)比,技(ji)術報告公開了(le)從音頻編碼器預(yu)訓練(lian)到指(zhi)令(ling)微(wei)調(diao)的全流(liu)程。

剛剛,小米又開源一大模型,22個公開測評SOTA

據官方信息(xi),小(xiao)米已開始對Xiaomi Dasheng系(xi)列模型做計算(suan)效率的升級,尋(xun)求(qiu)終端設備上可離線部署。

結語:小米音頻大模型再拱一卒,多模態能力拼圖日趨完善

作為影響自然語(yu)言交互體驗的關鍵技(ji)術(shu)之(zhi)一,小(xiao)米Xiaomi Dasheng系列模型此(ci)次的升級,對其提升自家設備的AI交互體驗有(you)一定幫助(zhu),從智(zhi)能(neng)家居、智(zhi)能(neng)汽車到智(zhi)能(neng)手機,各類產品均能(neng)受益。

AI多模(mo)態(tai)是當下業界主攻的方向之一,小(xiao)米(mi)重心轉向造車后,在AI大模(mo)型(xing)領域發(fa)聲并不多,小(xiao)米(mi)未來(lai)在多模(mo)態(tai)領域能(neng)否(fou)帶(dai)來(lai)更多模(mo)型(xing)創新,值得期待(dai)。