智東西(公眾號:zhidxcom)
作者 | 程茜 ZeR0
編輯 | 心緣
智東(dong)西(xi)9月26日報(bao)道(dao),北京時間(jian)今日凌晨1點(dian)15分,年度“MR圈春晚”Meta Connect 2024大會正式拉開(kai)帷幕。
Meta CEO馬克·扎克伯格穿著黑色T恤登臺,緊鑼密鼓發布MR頭顯Quest 3S、Llama 3.2大模型、雷朋智能眼鏡、全息AR眼鏡等新品。
扎克伯格亮出的首個硬件新品是Quest 3S,驚爆價299.99美元(折合約2110人民幣)。
雖說性能比Meta首款消費級MR一體機Quest 3略遜一籌,但起售價直降200美元,約等于蘋果Vision Pro的1/11,妥妥的性價比機皇!!!
大模型也重磅上新!Meta多模態模型Llama 3.2發布,包括90B和11B參數的視覺大語言模型,以及1B和3B參數的輕量級純文本模型。
借助Llama 3.2,Meta AI推出全新多模態功能,能支持語音交互了,有多種音色選項(包括一些名人的聲音)。扎克伯格現場演示與Meta AI語音聊天,非常絲滑。
還有被Meta稱作有史以來最先進的AR眼鏡——全息AR眼鏡“Orion”。
英偉達創始人(ren)兼(jian)CEO黃仁勛已經嘗鮮。
一、Quest 3S:親民廉價版,售價300美刀,性能比Quest 3幾乎無異
首先,平價(jia)版的Quest設(she)備來了!
Meta直接將Quest 3S價格砍掉200美(mei)元(折合約1406人(ren)民幣(bi)),還幾乎做到了性能(neng)與Quest 3相差無幾。
Meta?Quest 3S 128GB版售價為299.99美元(折合約2110人民幣),256GB版售價為399.99美元(折合約2813人民幣)。而512GB的Quest 3為499.99美元(折合(he)約(yue)3516人(ren)民幣)。

兩款頭顯采用的處理器一致,均為高通驍龍XR2 Gen 2芯片。價格大幅下降的關鍵就是Quest 3S將Pancake鏡頭更換成了Infinite透鏡。
從(cong)現場演示來看,擁有4K顯(xian)示屏的Quest 3S顯(xian)示十分清晰,還支持杜比全景聲(Dolby Atmos)環繞。

Meta重建了Horizon OS以(yi)實現空間計算,可以(yi)更好支持用戶使用YouTube、Facebook和Instagram等基本2D應用。

Meta添加了空間音頻,并改進了Passthrough(透視)的對比度和(he)顏色(se),都使(shi)得(de)其(qi)畫面演示(shi)能更加逼真和(he)身(shen)臨(lin)其(qi)境。
扎克伯格宣布Meta正與微軟合作,用Windows 11 PC來實現無縫虛擬桌面體驗。
Meta已提供多屏幕支持(chi),并(bing)且能夠直接與顯示器上正(zheng)在(zai)發(fa)生的事情(qing)進行交互。例(li)如,用戶可以直接拖拽(zhuai)筆記本中(zhong)的界面到Quest設(she)備(bei)中(zhong)。

為了創建更加逼真的元宇宙環境,Meta推出了Hyperscape,用(yong)戶只需用(yong)手(shou)機(ji)掃描自己所在的房間,然(ran)后隨(sui)時戴(dai)上頭顯都能“重現”這一房間。

這一頭顯設備能(neng)讓你(ni)坐在前排座位觀看音樂會、坐在家庭影(ying)院觀看高清大(da)片(pian)、進行健身等。
此外,Quest 3S還兼容(rong)Meta的數千款應用和完(wan)整游戲庫,以及即將推出的Quest 3和3S獨家游戲,如(ru)《蝙(bian)蝠俠:阿卡姆暗影》。
對于那些剛(gang)接觸XR或者一直在等待Quest和Quest 2設(she)備降價的(de)用戶而言(yan),Quest 3S可能是更好的(de)選擇。
二、Llama 3.2:視覺模型趕超GPT-4o mini,1B端側模型媲(pi)美(mei)Gemma
開源AI方面,Meta發布了全新多模態大模型Llama 3.2。
Llama 3.2有(you)90B和11B兩種參數規格的視(shi)覺大語言(yan)模型,還有(you)能在設備端本地(di)運行的1B和3B輕量級(ji)純文(wen)本模型,包括(kuo)預訓(xun)練和指(zhi)令調整(zheng)版。

下載地址:
1B和3B模型支持128K tokens上下文,適配高通和聯發科硬件,并針對Arm處理器做了優化。
3B模型在遵循指令、總結、快速重寫和工具使用等任務上的表現優于Gemma 2 2.6B、Phi 3.5-mini模型。1B模型的表現媲美Gemma。

90B和11B視覺模型是其相應文本模型的直接替代品,同時在圖像理解任務上的表現優于封閉模型,如Claude 3 Haiku、GPT-4o mini。

比如問企(qi)業去年哪個月的銷售額最高,Llama 3.2可根(gen)據可用圖表進行推(tui)理并快速提供答案。
它還能使用地(di)圖(tu)進行推理(li)并幫助(zhu)回(hui)答問(wen)題,例如地(di)圖(tu)上(shang)標記的特(te)定(ding)路(lu)徑的距離。
視(shi)覺模型(xing)也能通過從圖像中提取細節(jie)、理解(jie)場景,然后制作一兩句話(hua)作為圖像字幕來幫助講述故事。
與其他(ta)開放多模(mo)態模(mo)型(xing)不同,預訓(xun)練和對(dui)齊模(mo)型(xing)都(dou)可以(yi)使用torchtune針對(dui)自定義應用程序進行(xing)微調(diao),并使用torchchat在(zai)本地部署。
11B和90B參數的多模態模型需要支持圖像推理的全新模型架構。
Meta的(de)(de)訓(xun)練流程由(you)多個階段組(zu)成,從預訓(xun)練的(de)(de)Llama 3.1文(wen)本模型開始(shi),首(shou)先添加圖像適配(pei)器(qi)(qi)和編碼器(qi)(qi),然后通(tong)過(guo)大(da)規模噪聲對數據進(jin)行預訓(xun)練,接下來(lai)在中等規模的(de)(de)高質量領(ling)域內和知(zhi)識增(zeng)強(qiang)的(de)(de)數據上進(jin)行訓(xun)練。
在后期訓(xun)練中,Meta使用與(yu)文本模型類似的方法,在監督微調、拒絕采樣(yang)和(he)(he)(he)直接(jie)(jie)偏好優化(hua)方面進行多輪對齊。最(zui)終得到這一組可以同(tong)時接(jie)(jie)收圖像(xiang)和(he)(he)(he)文本提示并深入理解和(he)(he)(he)推理兩者組合的模型。

對于1B和3B參數的(de)(de)輕量級模(mo)型(xing)(xing),Meta使(shi)用了(le)利用強大的(de)(de)教師模(mo)型(xing)(xing)來創(chuang)建性能更佳(jia)的(de)(de)小(xiao)型(xing)(xing)模(mo)型(xing)(xing)的(de)(de)方法,使(shi)得其成(cheng)為(wei)首(shou)批能夠高(gao)效適應設備的(de)(de)高(gao)性能輕量級Llama模(mo)型(xing)(xing)。
Meta通過縮小(xiao)Llama現有模(mo)型的大小(xiao),同(tong)時盡(jin)可能多地(di)恢復知識和性能,其采用了從Llama 3.1 8B中(zhong)一次(ci)性使用結構(gou)化(hua)修剪的方法。
在(zai)后期(qi)訓練(lian)中,研究人(ren)員使用與Llama 3.1類(lei)似的(de)(de)方法,通過(guo)在(zai)預訓練(lian)模型(xing)的(de)(de)基礎上(shang)進行(xing)幾輪對齊來生成最終的(de)(de)聊天模型(xing)。

Meta正在分享(xiang)首個官方Llama Stack發行版,將極大(da)簡化開發人員在單(dan)節點、本(ben)地、云和(he)設備端(duan)等(deng)不同環境(jing)中使(shi)用Llama模(mo)型的(de)方式,從而實現檢(jian)索增(zeng)強(qiang)生成(RAG)和(he)集成安全性的(de)工具支持(chi)應用程序的(de)交鑰匙部署。
三、Meta AI:多種名人聲音任意選,P圖、實時翻譯更方便
借助Llama 3.2,Meta AI有聲音了。
現在(zai),使用語音與(yu)Meta AI對話,可以讓(rang)它回答你的(de)問題(ti)或者講(jiang)笑話逗(dou)你開心。Meta在(zai)語音中還添加了(le)很(hen)多熟悉的(de)AI聲音。如英國女演員Judi Dench等(deng)的(de)聲音。
扎克(ke)伯格現場對(dui)話了(le)AI版數字AR/XR視覺藝術家唐(tang)·艾倫·史蒂文森三(san)世(Don Allen Stevenson III),他對(dui)小(xiao)扎提到(dao)的恭喜新(xin)書(shu)發表、創作感想等內容(rong)對(dui)答如(ru)流。
當被問到一個與史蒂(di)文森(sen)三世本人毫(hao)無相關(guan)的農業問題時,AI版(ban)藝(yi)術家的回(hui)應也很符合人設(she),他稱自己擅長設(she)計和(he)技術而非農業相關(guan)。

Meta AI還能直接看懂照片,用戶可(ke)以直接在聊天界面中(zhong)上傳圖(tu)片(pian)(pian),AI就可(ke)以幫你(ni)解(jie)答你(ni)旅行(xing)中(zhong)遇到(dao)的(de)花是(shi)什么花、如何制作圖(tu)片(pian)(pian)中(zhong)這道菜等等。

編輯照片也不在(zai)(zai)(zai)話(hua)下,無(wu)需(xu)打開其它(ta)編輯工具(ju),僅在(zai)(zai)(zai)Meta AI的(de)(de)對(dui)話(hua)框(kuang)就(jiu)能解決。用戶可以直(zhi)接告(gao)訴AI想(xiang)在(zai)(zai)(zai)上傳的(de)(de)照片中添加、刪除或者更改什(shen)么內容,例如替換服(fu)裝、更換背景(jing)等。
??
同時,當用戶想分享照片到Instagram Story等社交平臺上時,Meta AI還會根據照片的內容生成相應的背景圖。

扎克伯格說,Meta正在測試一款翻譯工具。該工具可以自動翻譯短視頻應用Reels中的音頻,通過自動配音和口型同步,不僅能模擬說話者的聲音來翻譯,連(lian)口(kou)型都(dou)能對上。
這一功能首(shou)先將(jiang)在Instagram和(he)(he)Facebook上進行小規模測試(shi),將(jiang)來(lai)自拉丁美(mei)洲和(he)(he)美(mei)國的(de)創作(zuo)(zuo)者的(de)視頻(pin)翻譯成英(ying)語和(he)(he)西班牙語,未來(lai)將(jiang)會擴展到更多創作(zuo)(zuo)者和(he)(he)語言中(zhong)。

Meta AI的圖像生成功能還能幫用戶在Facebook等平臺(tai)上為自(zi)(zi)己“立(li)人設”,如將自(zi)(zi)己的(de)個(ge)人資料圖(tu)片更換(huan)為超級英雄或者(zhe)其(qi)他角色,還能為故事(shi)推薦標(biao)題。

面向企業,Meta正在(zai)將其AI工具擴(kuo)展到數千家使用WhatsApp和Messenger英文(wen)版點擊(ji)消(xiao)息(xi)廣告的(de)企業。
上個月已經有超過100萬個廣告客戶使用Meta的廣告生成工具,并利用這些工具制作了1500萬條廣告。數據顯示,平均而言,與未使用這些功能的廣告系列相比,使用Meta生成式AI 廣告功能的廣告系列點擊率高出11%,轉化率高出7.6%。

四、雷朋智能(neng)眼鏡:能(neng)記(ji)事,會觀(guan)察,打破語言障(zhang)礙
雷朋智能眼鏡一直非常受歡迎,具備視頻通話、流式傳輸內容、拍攝,抑或是聽音樂、有聲讀物等功能。
這次雷朋眼鏡(jing)重點升級了(le)多項AI功能。
首先是對話變得更自然。用戶只用在對話開始時說提示詞“Hey Meta”,后面就可以直接連續提問,不用重復說很多次“Hey Meta”。
還有一個功能是幫用戶記住事情。比如當用戶飛到某個地方,詢問在哪兒停車,眼鏡會幫用戶記住停車的位置。
用(yong)戶也(ye)可(ke)以用(yong)語音設置提醒(xing),3小(xiao)時(shi)安全著陸時(shi)給媽(ma)媽(ma)發短信報平(ping)安。
它還能用來打電話、掃碼。當雙手不方便操作手機時,用戶可以用Meta AI在WhatsApp和Messenger上錄制和發送語音消息,同時保持在線狀態。
此外(wai),Meta AI能通(tong)過結合攝像(xiang)頭,為用戶提供持續幫助。
比(bi)如當用戶(hu)探索一個新城市,可以讓Meta AI根據(ju)攝像頭捕捉的(de)信息詢(xun)問(wen)用戶(hu)在行走時看到的(de)地標或獲取下一步要看什么的(de)想法。
它也能提供服裝搭配(pei)建議,并實時(shi)掌(zhang)握你的(de)周圍環境,比如(ru)建議用戶考慮“剛才(cai)路過的(de)那條珍珠項鏈”、“右邊的(de)黑色連(lian)衣裙”。
或者在(zai)一(yi)個雜(za)貨(huo)店(dian)并試圖計(ji)劃一(yi)頓飯時,用戶可以(yi)讓(rang)Meta AI根據自己在(zai)過道上(shang)行走時看到的(de)東西來(lai)幫忙(mang)弄清楚要做什么(me),以(yi)及手里的(de)醬料是否與它剛剛建議(yi)的(de)食譜搭(da)配得很好。
現場還演示了流暢的實時語音翻譯功能,戴著眼鏡就能打破語言障礙,實現跨語種交流。
Meta將繼續添加更多語言。
雷朋智能眼鏡可使用“be my eyes”應用,將視力有缺陷的人與視力正常的志愿者相連,以便志愿者能借助眼鏡和POV視頻通話,輕松看到視力殘障人士的視角并告知周圍環境,或者在日常任務中提供實時、免提的幫助,例如調節恒溫器或分類和閱讀郵件。
Meta正推進與Spotify和Amazon Music的整合(he),并與Audible iHeart建立(li)新合(he)作伙(huo)伴關系,使用戶能隨(sui)時隨(sui)地使用語(yu)音搜索、發(fa)現(xian)和播放內容。
此外,Meta還發布了一款限量版Shiny Transparent Wayfarer透明鏡框,并將EssilorLuxottica的全新UltraTransitions GEN S鏡片系列引入雷朋眼鏡系列,能快速適應所有光線條件。
五、Orion:迄今最先進AR眼鏡,全息顯示屏,手腕(wan)神經接口
最后,扎克伯格現場開箱,拿出Meta眼中的“迄今最先進的AR眼鏡”——Orion。
AR眼鏡兼(jian)具便捷、即時性、大(da)顯示(shi)屏、高帶(dai)寬輸(shu)入、情景(jing)化AI等優勢(shi)。它不受手機(ji)屏幕限制(zhi),能借助大(da)型全息顯示(shi)屏,將物理世(shi)界當(dang)成畫布。
盡管雷朋智能眼鏡開創了AI無顯示屏眼鏡類別,但XR行業還在翹首以盼真正的AR眼鏡——一款將大型全息顯示屏和個性化AI輔助優勢結合到舒適、全天候可佩戴的產品。
Orion正為(wei)此(ci)而生。
經過數十項創新,Orion的組件被壓縮到幾分之一毫米。
扎克伯格稱它是“世界上從未有過的高端眼鏡”,“技術上很瘋狂”,在不同照明條件下,大到能顯示一個電影屏幕或多個顯示屏幕,覆蓋物理世界全息圖。
它擁有迄今為止最小AR眼鏡中最大的視野,支持從多任務窗口、大屏幕娛樂到真人大小的人物全息圖,所有數字內容都能與物理世界視野無縫融合。
Meta AI智能(neng)助手可在(zai)Orion上(shang)運(yun)行,理解用戶在(zai)現實世(shi)界(jie)上(shang)看到的東(dong)西(xi)。
比(bi)如用戶(hu)可以把攝像頭對準冰箱(xiang),讓(rang)Meta AI根據里面的東西提供食譜建(jian)議,或者邊(bian)(bian)洗碗邊(bian)(bian)調(diao)整(zheng)數字家庭日歷,邊(bian)(bian)給朋友打視頻電(dian)話。
也(ye)可以進行免提視(shi)頻通話(hua),實(shi)時與(yu)朋友和家人保持聯系,還可以通過WhatsApp和Messenger查看和發送消息。
以前需進(jin)行的拿(na)出手機、解鎖(suo)、找到(dao)合適的應用程序、讓朋(peng)友知道用戶快(kuai)吃(chi)晚飯(fan)了(le)這一系列(lie)繁瑣步(bu)驟(zou),現在一副眼(yan)鏡就能輕松完成(cheng)所有操作(zuo)。
如(ru)果想和遠方的人相見,他們的虛擬影像(xiang)會被(bei)即(ji)刻傳送。
由于配有透(tou)明鏡片,人們(men)戴上AR眼鏡,依然能(neng)看到彼此的面容和(he)神情,或者進(jin)行眼神交(jiao)流(liu)。
為了制(zhi)作(zuo)這種顯示屏(ping),眼(yan)鏡(jing)腿上(shang)的投(tou)(tou)影儀將內(nei)容投(tou)(tou)射(she)到(dao)納米印(yin)刷鏡(jing)片上(shang),使它們不僅能夠在(zai)2D空(kong)間投(tou)(tou)射(she)圖像,還能在(zai)3D空(kong)間投(tou)(tou)射(she)圖像。
Orion支持手勢追蹤、眼動追蹤,基于手腕的神經接口可理解用戶與設備交互的手勢。
手(shou)(shou)勢操(cao)控時(shi),你可(ke)能(neng)不想在公(gong)共場(chang)合手(shou)(shou)舞(wu)足蹈招(zhao)一堆人圍觀,而操(cao)作Orion的(de)動作非常輕微,不會影(ying)響到(dao)周圍的(de)人。
Meta已經向少(shao)數人展(zhan)示(shi)了它(ta),這些人評價(jia)說這是他們(men)見過的最(zui)瘋(feng)狂的技術。
Meta將Orion稱作其開發過的“最精致的產品原型之一”,但它暫時不會進入消費者手中。其團隊決定先專注于內部開發(fa),繼(ji)(ji)續(xu)快(kuai)速構建并繼(ji)(ji)續(xu)突破技術界限,以開發(fa)出(chu)更好的消費產品。
Meta向自家員工和選定的外部用戶提供Orion的訪問權限,以便其團隊可以學習、迭代和構建消費者AR眼鏡產品線,計劃不久后開始出貨。
目前(qian)Meta主(zhu)要(yao)關(guan)注(zhu)三件(jian)事:1)調整AR顯示質量,使(shi)視覺(jue)效果(guo)更(geng)加清(qing)晰(xi);2)盡可能優化,讓外形(xing)尺寸(cun)變得更(geng)小;3)規模化,使(shi)其可負擔(dan)。
結語:不卷高端,卷起性價比
“元(yuan)宇(yu)宙”概念降溫了,但(dan)用智能硬件打開(kai)虛實融(rong)合之門的產(chan)業探索才(cai)剛剛起(qi)步。
便(bian)宜、便(bian)攜、舒(shu)適,智能(neng),成(cheng)為今(jin)年(nian)MR/VR/AR新品的(de)共識,這(zhe)在今(jin)天(tian)的(de)Meta Connect大會上(shang)再度得到印(yin)證。
尤其是便宜。連坐擁(yong)大批死忠“果(guo)粉(fen)”的(de)蘋(pin)果(guo),其Vision Pro都(dou)因(yin)昂(ang)貴的(de)售(shou)價(jia)栽(zai)了(le)跟頭。
知(zhi)名(ming)市場研(yan)究機構IDC預計第三季度美國(guo)本土的(de)Vision Pro銷量將比第二季度大(da)幅下滑(hua)75%,全年全球(qiu)銷量難破50萬臺大(da)關。知(zhi)名(ming)分析師郭明錤也認為,高昂的(de)價(jia)格阻礙了消費者。
蘋(pin)果研發平(ping)價(jia)版頭(tou)顯的(de)消息已頻頻傳出。Meta也被曝取消高端頭(tou)顯“La Jolla”的(de)開(kai)發計劃,原(yuan)因是(shi)未能將產品成本(ben)控(kong)制在1000美元內。
國(guo)內(nei)MR/VR/AR硬(ying)件同樣在快速更新迭代(dai),沒有(you)盲目復制蘋果(guo)Vision Pro卷向高端(duan),而(er)是從技術路線和應用場景上構筑差異化競爭力。
字(zi)節(jie)跳動旗下PICO上個月(yue)推出其(qi)首款MR一體機PICO 4 Ultra,相較(jiao)前代產品PICO 4/4 Pro全面升級,起售價4299元。
深圳仙(xian)瞬科技開發了超微型化的(de)全球(qiu)首款具(ju)備(bei)隱形顯示功能(neng)(neng)的(de)智能(neng)(neng)眼鏡,體積小到能(neng)(neng)輕松集成至普通眼鏡框(kuang)架內,使(shi)現有設(she)備(bei)能(neng)(neng)更好融入AI。
IDC預測2024全年中國AR/VR預計出貨60.2萬臺,同比下滑17.1%;從今年年底開始,將會有更多手機廠商入局MR領域(yu),并將于(yu)2025年集中推出首款產品。

























