智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | 李水青

微軟AI首批自研大模型來了!

智東西8月29日報道,今天,微軟旗下的AI研究機構微軟AI(Mircosoft AI,簡稱MAI)推出了首批兩款全自研AI模型,分別為MAI首款端到端訓練的基礎模型MAI-1-preview和首款語音生成模型MAI-Voice-1。

MAI-Voice-1的發布時機十分湊巧,OpenAI也在今天發布了一款語音模型。MAI-Voice-1可提供高保真、富有表現力的音頻,已經在Copilot Daily和Podcasts上線,還可在Copilot Labs進行體驗。

在智東西進行的實測中,這一模型展現出超高的定制化程度:用戶不僅可以選擇情緒模式、聲音模板,還至少有40種語體風格可供選擇。除了常見的喜悅、憤怒、悲傷、惡心、恐懼等情緒模板,模型還可以扮演機器人、海盜、吸血鬼、新聞主播、貓頭鷹等不同角色,對同一段文本進行自主改寫和演繹,可玩性超強。

每一個角色都有各自獨特的說話方式、口癖等。貓頭鷹會不停地“咕咕”叫,機器人有一種“活人微死”的感覺,新聞主播則一本正經。這些角色都是在統一聲音模板的基礎上呈現的,展現出很強的可塑性。

MAI-Voice-1生成速度也較快,微軟稱能在單款GPU上運行,一秒鐘輸出一分鐘的音頻。不過,這一語音模型暫時不支持中文輸出,輸入中文時會自動轉為英文。

微軟AI首個自研模型來了,實測可玩性超強,CEO回應與OpenAI隔閡

▲輸入中文文本后,也會自動轉為英文

體驗鏈接:

//copilot.microsoft.com/labs/audio-expression

MAI-1-preview是一款混合專家模型,大約在1.5萬個英偉達H100 GPU上完成了預訓練和后訓練,主打指令遵循和日常問題解答等能力。

這一模型已經在LMArena(大模型競技場)內進行盲測,不過,智東西進行了多次“抽卡”,都沒能體驗到這一模型。未來幾周內,MAI-1-preview將會應用于Copilot的部分文本場景,以獲取反饋,優化用戶體驗。

新模型發布之際,微軟AI CEO Mustafa Suleyman還接受了媒體Semafor的深度專訪,向外媒揭秘了自研大模型背后的考量,并正面回應了外界普遍存在的關于微軟與OpenAI關系漸行漸遠的看法。

微軟AI首個自研模型來了,實測可玩性超強,CEO回應與OpenAI隔閡

▲Mustafa Suleyman在微軟發布會上(圖源:微軟)

MAI成立于2024年3月,是微軟推進Copilot和其他消費者AI產品和研究的專門機構。MAI的CEO Suleyman曾擔任DeepMind聯合創始人兼應用AI部門負責人一職,隨著DeepMind被收購而加入谷歌,并在2022年離職創辦大模型創企Inflection AI。

2024年初,Infection AI與微軟達成6.5億美元“人才收購”的交易方案,Suleyman與大部分員工加入MAI,14個月后,他們交付了第一款自研模型。

Suleyman稱,AI對微軟的業務有根本性的意義,而自研模型計劃早在14個月前便已開始。他們會繼續與OpenAI等企業合作,也會使用開源模型,但重要的是確保始終有選擇權

MAI-1-preview被Suleyman定義為“人格原材料”,也就是說,模型可以在融入產品的過程中,表現出各種不一樣的人格特點。通過后訓練、提示詞工程等方法,未來的大模型可以涌現出“數百萬種”不同的人格

微軟擁有打造強大模型所需的資源,正在構建世界上最大規模的GB200、GB300集群,也能順利地招募到人才。但Suleyman強調,規模固然重要,但效率同樣關鍵。這意味著要精挑細選高質量訓練數據,讓每一次浮點運算、每一次GPU迭代都物盡其用。

Suleyman還在訪談中分享了對“可解釋性”研究的看法,他認為模型本質是空心的,可解釋性研究有意義,但并不會揭示所謂意識的本質。

以下是對Suleyman最新訪談的完整編譯:

一、OpenAI不是唯一解,模型不是未來核心知識產權

主持人:我很好奇,為什么微軟需要擁有自己的端到端預訓練基礎模型,而不是使用來自OpenAI等公司的這些其他模型呢?

Mustafa Suleyman:這是一個很好的問題。我們是世界上最大的公司之一,而AI是未來,不僅是技術的未來,也是我們在未來幾十年中進行交易、開展業務和創造價值的方式。

因此,這對微軟的業務來說具有根本性的意義,必須具備內部的專業能力,去打造世界上最強大的模型。這就是我們在大約14個月前加入微軟后不久,就開始著手自研模型工作的原因。這是一段非常令人興奮的時期。

主持人:這次你們發布了兩款模型。一個是MAI-1-Preview,據我理解,這是一個大型語言模型(LLM)。然后還有一個語音模型,它們是兩個獨立的模型嗎?

Mustafa Suleyman:是的,它們是兩個獨立的模型。我們的語音模型表現非常出色,流暢、干凈,而且富有表現力。我們希望確保微軟始終有多種選擇:會繼續使用第三方開發者的模型,當然也會長期使用OpenAI的模型。同時我們也在用開源模型,并會堅持這樣做。

我認為未來的關鍵知識產權在于編排器——它將決定在處理某類查詢時該調用哪個模型。這就是我們12到15個月前確立的方法,也是我們現在所走的路線。

主持人:編排器,是不是意味著它會自動幫用戶選擇最合適的模型?

Mustafa Suleyman:可以把編排器理解為一個路由器,負責決定在何時將哪個請求交給哪個模型。

主持人:外界可能會把你們發布新模型解讀為微軟和OpenAI的關系出現疏遠,或者說兩者關系變冷。你怎么看?合作依然緊密嗎?

Mustafa Suleyman:我們的目標是進一步深化與OpenAI的合作,確保這種關系能持續很多年。到目前為止,這種合作是非常成功的——他們從中獲益很多,我們也是。我希望并且有信心我們會繼續合作,我對此沒有任何擔憂。

二、集群量級小于業界頂級規模,盡量避免在無意義token上浪費算力

主持人:你們公開披露模型是用15000張H100 GPU訓練的,這很有意思,因為很多公司通常對此守口如瓶。現在有些公司動用的是10萬張H100 GPU,而且我們已經在邁向下一代GPU。你覺得是否可能用更少的GPU達到同樣的效果?

Mustafa Suleyman:我認為我們已經證明了這是可能的。如今一個15000張GPU的集群,相比其他動輒使用數倍規模的來說,算是小的了。但即便如此,我們依然能獲得世界級的性能。

這是一個超越其重量級的模型,表現不亞于世界上最頂尖的模型。而且這只是開始。一旦模型進入生產環境,開始收集反饋,迭代過程將顯著提升性能。我們的團隊已經做得非常好,這是一個重要的里程碑,但對我們來說這只是起點。

主持人:那你們有沒有特別針對某些基準測試?

Mustafa Suleyman:我們在各種主流基準測試上都進行了訓練。如今模型必須具備通用性,尤其是文本任務。同時我們也在逐漸擴展到多模態,因為多模態能讓模型在更多數據上學習,從而表現得更好。我們對未來的發展持開放態度。

主持人:那MAI是否已經具備你所需要的資源?是不是GPU越多越好?

Mustafa Suleyman:我們剛剛開始在GB200上進行訓練和測試。微軟正在構建世界上最大規模的GB200、GB300集群之一。它們會為OpenAI提供支持,也會服務于MAI以及我們的付費推理合作伙伴。

我們有一個為期五年的宏大路線圖,每個季度都會持續投入。這種趨勢還會繼續下去。

規模固然重要,但效率同樣關鍵。這意味著要精挑細選高質量訓練數據,讓每一次浮點運算、每一次GPU迭代都物盡其用。

如今訓練模型的關鍵在于數據選擇——避免在無意義的token上浪費算力。我們的新模型證明了,在極高效率的前提下,也能取得一流的表現。

三、MAI-1-Preview是“原材料”,可打造出大量人格

主持人:那么,使用這些模型的體驗如何?幾周前你寫了一篇文章,討論了“近似有意識”的AI,你提醒我們要避免這種情況。但在Inflection和微軟,你們也強調過讓模型具備同理心、擁有讓人樂于交流的人格特質。這篇文章是不是意味著方向要調整?

Mustafa Suleyman:不,并不是。首先要認識到,人類所具備的很多能力——不論是智商(IQ)、情商(EQ)、行為能力,還是社交智能(SQ)——本質上都是高度可訓練的。模型也會逐漸獲得這些能力,這是它們的“默認”發展方向。

模型通過模仿學習,而它們擁有海量的模仿數據可用。作為“雕塑家”,我們正在塑造它們的知識、人格特質、行為能力和社會智能。

關鍵問題是:哪些能力是我們希望模型擁有的?哪些是我們不希望它們擁有的?我們如何發現潛在的副作用,并以負責任的方式進行迭代?

我寫這篇文章的目的,就是提醒大家:盲目追求模型模仿人類的全部能力,存在實質性的風險。我們必須從現在開始認真思考,而不是等到問題真正出現才去補救。這也是我職業生涯的核心目標之一——推動大家去思考兩三年后可能會發生什么,而不是忽視它。

我們需要認真面對AI進入社會后會帶來的影響。

主持人:雖然你說那一步還沒到,可能要幾年后,但最近新聞里出現了OpenAI和Character.AI遭遇的訴訟,指控聊天機器人導致自殺。你覺得這是不是你文章中提到的風險?這是你擔心的情況嗎?

Mustafa Suleyman:我認為未來會出現各種難以預料的突發效應。我們能做的,就是提前思考可能性,并在發現問題時及時公開,認真對待,并推動社區開發者迅速采取行動。

回顧以往的技術發展,很多時候潛在風險都會被回避,導致反應遲緩。我認為這一次我們必須謹慎、主動,同時盡可能快速地推進技術落地,并把好處惠及世界。

主持人:和MAI-1或語音模型交流時,會有特定的感覺嗎?你們的目標是什么?是讓人感覺像在和一個善良、有同理心的人對話,但又不至于假裝是人類嗎?你們如何保持這種平衡?

Mustafa Suleyman:MAI-1-Preview可以被看作是“人格原材料”。最終的產品——無論是Copilot還是其他應用——都會被塑造出特定的人格和對話風格。

我預計社區和開源開發者會非常積極地嘗試各種不同的人格。我相信未來會出現數以百萬計的版本,就像現實中存在數以百萬計的個人、品牌和組織一樣。

每當人類發明或發現一種新的交流媒介,都會催生大量變體。這一次也不例外。過去兩三年,大模型大多只有一種或極少數幾種人格。有些開發者嘗試過角色設定或花哨的個性化,但在大型企業產品中依然很少見。我預計未來幾年這種情況會發生根本變化,這正是我在博客中呼吁大家注意的。

主持人:聽起來在預訓練階段幾乎沒法做什么,這些工作只能在后訓練里處理。

Mustafa Suleyman:是的。預訓練階段基本無法干預。后訓練,甚至提示工程,都是非常強大的方法,而且操作并不復雜,很多人都能做到。

因此,我們應該預期未來會出現數百萬種不同的人格,各自有不同的背景故事和能力。這會讓AI產品與以往的技術和產品截然不同。

四、大模型是空心的,追求可解釋性是在“擬人化”

主持人:當你談到塑造時,有些人稱訓練大模型幾乎就像種地一樣,在培育一個模型。在模型變得更有能力,更大之后,為了實現你的上述目標,是否需要更深入地理解模型呢?比如解決黑箱問題,深入到單個神經元中,以實現這個目標呢?

Mustafa Suleyman:我覺得是有可能需要的。但同時,我有一種直覺,認為對“可解釋性”的執著其實是一種擬人化的想法。

它假設在生成語言、模擬體驗的過程中,語言背后必然有某種“實體”,但在我看來并沒有。事實很清楚:一個簡單的預測引擎就能以極其深刻的方式模擬出體驗和互動。

但這并不意味著在大型語言模型內部真的發生了某種根本性的“體驗”。它只是幾乎完美地模仿了體驗的特性。而這就是模仿和真實體驗之間的根本區別。

我們人類和其他動物的意識,其實是基于對感官輸入的第一手、實時的體驗,對它們進行存儲、處理、適應,然后再基于此生成預測。

在我看來,大語言模型是“空心”的。試圖去探索它們的內部運作機制,某種程度上也是一種擬人化。

當然,這是一個有趣的科學探索,應該繼續做下去。但它不太可能揭示出某種根本性的“意識的本質(Consious Truth)”。而這正是一些學者或開發者開始探討的東西。我認為這種探索是錯誤的,也是過早的。

主持人:但即使它們是“空心的”,它們在規模變大、技術改進時,確實會變得更強。所以當它們更強大、更龐大、更難理解時,你認為它們會不會在某種程度上變得難以控制,甚至在后訓練階段也無法掌控?

Mustafa Suleyman:我不這么認為。就像我在博文中寫的那樣,我看不出這些系統會出現某種“欲望”、“動機”或“意志”的涌現屬性的理由。

我沒有理由相信這種情況會發生。從歷史上看,這些特質的出現是因為我們有“戰或逃”的本能,為了生存而對環境作出反應。

后訓練的好處就在于,它是一種經過反復驗證、非常可靠的方式,可以用來塑造特定的行為。因此,我認為作為模型開發者,我們的責任是仔細思考:哪些行為要通過后訓練去抑制,哪些行為要去放大。

這不會自然而然、涌現式地發生。如果會發生,那一定是因為人們刻意地將這些特性工程化地植入系統。因為模型并沒有真正的體驗,它們只是高質量地模擬對話而已。所以好消息是,我認為我們在這些事情上仍然有很大的控制力。我們可以在積極降低風險的同時,盡可能發揮它們的優勢。這就是目標。

五、招募人才沒遇到瓶頸,MAI飛輪已經開始旋轉

主持人:你們在新聞稿里其實也提到過——“來和我們一起工作吧,我們正在做很酷的事”。招募人才一直是AI行業的一個大問題。你們在這方面情況如何?能不能以理想的薪資招到你們想要的人才?

Mustafa Suleyman:當然可以。我們有一支非常出色的團隊。從Inflection帶來了一個極其強大的團隊,此后也從各大實驗室招聘到了一批優秀的人才。

我認為我們的招聘非常順利。而且我們一直很謹慎,不會增長得過快或過大。其實在這里,你只需要相對較小的團隊,就能做出高質量的工作。

與此同時,我們的團隊也正在成長到數百人規模,所以在招聘上我們處在一個很好的狀態。

主持人:那你們在吸引年輕的博士生時,通常是怎么說服他們?為什么要選擇來這里,而不是去OpenAI或DeepMind?

Mustafa Suleyman:我認為世界上最優秀的人才,想要做的是那些真正有影響力的工作,能帶來改變、能做出優秀產品,同時解決如何高效實現目標的技術挑戰。

而我們已經證明了:我們能夠挑選非常高質量的訓練數據,用相對有限數量的GPU,打造出世界級的模型。

我覺得這就是一張很有吸引力的名片,能讓更多人愿意加入我們的團隊。我相信這只是我們未來幾個季度將推出的眾多模型中的第一個。我很期待繼續打造一支優秀的團隊。

主持人:我很好奇,在這次發布之前有報道說模型出現了延遲、遇到問題,早期沒能達到預期的能力。你們從中學到了什么?

畢竟這是微軟首個完整的端到端基礎模型。是不是很大的挑戰?有沒有收獲很多?

Mustafa Suleyman:是的,毫無疑問。構建如此規模的集群、在如此龐大的數據上進行訓練,總是很大的挑戰。

它需要大量的調試和迭代,需要來回折騰,需要耐心,還需要謙遜。每一家實驗室都經歷過這種過程,通過多次迭代才推出新版本。

但我認為我們擁有一支非常優秀的團隊,會繼續不斷迭代,把新的優秀模型推向世界。我對未來充滿期待,因為我們現在已經讓自己的“飛輪”轉了起來,接下來會有很多非常有趣的事情發生。

六、核心模型仍需繼續迭代,不排除開源可能

主持人:你之前在Inflection做過類似的事,再之前你在DeepMind,但那時還沒有大家都在搞十萬級GPU集群的規模。所以那些經驗能直接遷移過來嗎?還是說每家公司都有自己的一套風格或挑戰,需要重新學習?

Mustafa Suleyman:這是個好問題。歸根結底,這一切都是在于建立一種偉大的文化。文化吸引團隊,團隊打造模型,而團隊的價值觀最終會體現在我們做出的模型和產品中。

所以我們正在努力建設一種友善、支持性強、可持續的文化,同時專注于技術卓越,盡可能做到最好。

很多人會覺得這非常令人滿足,尤其是當我們的產品能夠觸達數十億消費者、數十萬大小企業的時候。能讓技術惠及這么多人,本身就是很令人滿足的事。

主持人:說到這里,你們預計什么時候能把這些模型真正應用到微軟龐大的產品網絡里?

Mustafa Suleyman:很快。我們還需要在核心模型上繼續一些迭代,然后當然要做大量的后訓練,把它們應用到不同的產品領域,并讓它有可能通過Foundry API提供給外部開發者使用。這一切都在推進中,很快就會發生。

主持人:你提到過你們從開源世界學到了很多,但這個模型本身不是開源的。未來會不會開源?還是說這并不是你們的方向?

Mustafa Suleyman:有可能。我們保持開放的態度,畢竟現在也有很多優秀的開源模型。我認為第一步是看看它在我們產品中的表現,收集反饋,進行迭代,然后可能會提供給其他客戶使用。我們現在正在考慮所有這些事情。

主持人:剛才還提到了GB200集群。那么MAI-2已經在路上了嗎?是不是一年內就能看到?接下來是什么?

Mustafa Suleyman:是的,我們已經在做下一個模型了,規模肯定更大,訓練方案上也會有一些新的調整。一切都在進行中,未來幾個月、幾年會有很多新東西。