-
小米大模型突然登頂一項(xiàng)測(cè)試,用了DeepSeek的方法
-
張廣凱13764468101
3月17日,小米官方透露,其大模型團(tuán)隊(duì)在音頻推理測(cè)試集MMAU榜單登頂,并強(qiáng)調(diào)“DeepSeek-R1的發(fā)布為我們?cè)谠擁?xiàng)任務(wù)上的研究帶來(lái)了啟發(fā)”。
MMAU是一個(gè)側(cè)重考察音頻大模型理解和復(fù)雜推理能力的測(cè)試集,包含27種不同的任務(wù),一萬(wàn)條涵蓋語(yǔ)音、環(huán)境聲和音樂(lè)的音頻樣本。
例如,其中一個(gè)任務(wù)是要求從一段10多秒的語(yǔ)音中,數(shù)出包含至少一個(gè)重讀音素的單詞數(shù)量;另一個(gè)任務(wù)是根據(jù)一段美劇《生活大爆炸》中的對(duì)話,解釋其中一句話為什么是諷刺。
這是一個(gè)難度較高的測(cè)試集,人類專家的測(cè)試準(zhǔn)確率為82.23%。而目前榜單上最強(qiáng)的大模型是谷歌Gemini 2.0 Flash,準(zhǔn)確率55.6%。
小米大模型則達(dá)到了64.5%的準(zhǔn)確率,較其它大模型有顯著提升。其參數(shù)量更是只有7B,是一個(gè)非常輕量化的模型。
不過(guò),小米的大模型倒也不是完全自己研發(fā),而是基于開源的阿里通義大模型Qwen2-Audio-7B,并使用清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集進(jìn)行微調(diào)。Qwen2-Audio-7B自身在這個(gè)測(cè)試集上的得分是49.2%。
其實(shí),相比于模型本身,小米這一成果的更大意義在于,證明了在音頻模型領(lǐng)域,DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,同樣比監(jiān)督微調(diào)(SFT)效果要好得多。
小米方面專門用通俗的語(yǔ)言解釋了這個(gè)方法:
“打個(gè)比方來(lái)說(shuō),離線微調(diào)方法,如 SFT,有點(diǎn)像背題庫(kù),你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會(huì)做;而強(qiáng)化學(xué)習(xí)方法,如 GRPO,像老師在要求你多想幾個(gè)答案,然后老師告訴你哪一個(gè)答案好,讓你主動(dòng)思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時(shí)間來(lái)死記硬背題庫(kù),也許最終也能達(dá)到不錯(cuò)的效果,但效率太低,浪費(fèi)太多時(shí)間。而主動(dòng)思考,更容易快速地達(dá)到舉一反三的效果。強(qiáng)化學(xué)習(xí)的實(shí)時(shí)反饋可能會(huì)幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個(gè)可能性空間,效率要低得多?!?
此外,小米團(tuán)隊(duì)還發(fā)現(xiàn),如果讓模型像DeepSeek一樣,給出顯性的推理過(guò)程,最后的準(zhǔn)確率反而下降到61.1%,也就是說(shuō),顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。這是相較于DeepSeek的一個(gè)新發(fā)現(xiàn)。
最后,小米方面也指出,盡管當(dāng)前準(zhǔn)確率已突破 64%,但距離人類專家 82% 的水平仍有差距,音頻大模型仍然遠(yuǎn)遠(yuǎn)落后于人類聽覺(jué)語(yǔ)言推理。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張廣凱 
-
人工韌帶有望打破國(guó)外壟斷,投資人為何等不及國(guó)產(chǎn)替代?
2025-03-17 17:24 觀網(wǎng)財(cái)經(jīng)-健康 -
麒麟X90處理器曝光,華為首款PC級(jí)CPU來(lái)了?
2025-03-17 16:46 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
寧德時(shí)代正開發(fā)第二代鈉電池:性能已與磷酸鐵鋰電池接近
2025-03-17 13:50 大公司 -
韓國(guó)巨頭減產(chǎn)、美光停電,閃存芯片要漲價(jià)了
2025-03-17 13:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
寶馬宣布與華為達(dá)成合作,未來(lái)將深度集成華為HiCar
2025-03-17 12:31 華為 -
1688全面松綁“僅退款”
2025-03-17 11:52 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
京東外賣入駐商家已破30萬(wàn)家,覆蓋全國(guó)126城
2025-03-17 10:59 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
3000億國(guó)補(bǔ)擴(kuò)容,滴灌到縣城
2025-03-17 09:57 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
華為申請(qǐng)MateRobot商標(biāo)
2025-03-17 09:50 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
年化利率高達(dá)20倍!借貸寶被暫停運(yùn)營(yíng)
2025-03-16 09:38 315維權(quán) -
土巴兔:未與火眼云達(dá)成實(shí)質(zhì)性合作
2025-03-16 09:16 315維權(quán) -
即將連虧3年,360用戶體驗(yàn)何時(shí)能提升?
2025-03-15 22:51 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
市場(chǎng)監(jiān)管總局發(fā)聲
2025-03-15 22:21 -
知情人士:偷個(gè)人信息的獲客公司每日處理100億條數(shù)據(jù)
2025-03-15 22:21 315維權(quán) -
最高年化利率近6000%!在評(píng)論區(qū)一不小心借到“高利貸”...
2025-03-15 21:39 315維權(quán) -
啄木鳥回應(yīng):確認(rèn)屬實(shí)將會(huì)對(duì)師傅進(jìn)行嚴(yán)格處罰
2025-03-15 21:20 315維權(quán)
相關(guān)推薦 -
-
真急了!“請(qǐng)求中國(guó)取消限制” 評(píng)論 65歐盟多國(guó)大停電,“我們需要中國(guó)技術(shù)” 評(píng)論 110中俄元首在主觀禮臺(tái)出席紅場(chǎng)閱兵式 評(píng)論 57英方拿到了,“簡(jiǎn)直像在平行宇宙,中國(guó)太超前了” 評(píng)論 88“全球都將研究,中國(guó)與西方最強(qiáng)大武器直接對(duì)決” 評(píng)論 390最新聞 Hot
-
真急了!“請(qǐng)求中國(guó)取消限制”
-
嚴(yán)管執(zhí)行!中方再出手,美媒發(fā)愁
-
俄副總理:中俄“西伯利亞力量-2”項(xiàng)目談判取得進(jìn)展
-
“歐洲在華企業(yè)偷著樂(lè):機(jī)會(huì)來(lái)了”
-
歐盟多國(guó)大停電,“我們需要中國(guó)技術(shù)”
-
普京閱兵式演講,特別提到中國(guó)
-
“對(duì)華閹割版,又要降級(jí)”
-
“全球都將研究,中國(guó)與西方最強(qiáng)大武器直接對(duì)決”
-
英方拿到了,“簡(jiǎn)直像在平行宇宙,中國(guó)太超前了”
-
微軟:從中企學(xué)到,誰(shuí)先一步拿下,誰(shuí)就難被取代
-
美國(guó)農(nóng)民發(fā)愁:雞爪、魚頭...除了中國(guó),好難找到買家
-
首位“美國(guó)教皇”利奧十四世是誰(shuí)?
-
許紅兵,主動(dòng)投案
-
美國(guó)官員:殲-10擊落陣風(fēng),沒(méi)用F-16
-
特朗普:對(duì)華關(guān)稅145%到頂了,要降
-
美大使污蔑“中國(guó)不是好盟友”,我駐巴拿馬使館駁斥
-