-
DeepSeek“偷偷”發(fā)布新版本,最新測(cè)評(píng)來了
-
張廣凱13764468101
(文/張廣凱 編輯/呂棟)
昨晚,DeepSeek 以非常低調(diào)的方式,帶來了最新版本的大模型 V3-0324。
沒有官方新聞稿,沒有技術(shù)報(bào)告,甚至在Hugging Face上傳的最初文件中,連README文檔都是空的,看上去,這只是V3模型的一次版本升級(jí)。
不過由于DeepSeek自帶的極高話題性,這次版本升級(jí)還是引發(fā)了大量討論和測(cè)評(píng),并且果然沒有令人失望——很多專業(yè)人士都指出,V3-0324模型在編程能力上有了顯著提升。
在大模型編程能力測(cè)試Aider LLM中,V3-0324的多語言基準(zhǔn)測(cè)試得分為55%,相較于此前版本不到50%的水平有明顯進(jìn)步,并且超越了OpenAI的o3-mini,接近于自家的R1,但仍然稍稍落后于以編程見長(zhǎng)的Claude 3.7 sonnet。
考慮到V3-0324并非推理模型,能夠在編程能力上接近R1,算得上是自身短板的精準(zhǔn)補(bǔ)強(qiáng)。
另一位博主Xeophon自建的測(cè)試集上,V3-0324在綜合能力上超越了Claude 3.5 sonnet,排在它身前的DeepSeek R1,o3-mini和阿里通義的qwq-32b則都是推理模型。
知名的大模型競(jìng)技場(chǎng)Chatbot Arena也已經(jīng)開始將V3-0324納入測(cè)試,但還具體成績(jī)還要等待幾天時(shí)間。
在目前的Chatbot Arena排行榜上,GPT-4.5-Preview和Grok-3-Preview-02-24并列排在榜首,而DeepSeek R1則排在第6位。
隨著今年以來OpenAI推出最后一代非推理模型GPT-4.5,以及推理模型o3的升級(jí),再加上Grok、Claude和Gemini等模型的持續(xù)迭代,外界對(duì)于DeepSeek何時(shí)能夠再次升級(jí)也有了更高期待。
此前路透社消息稱,DeepSeek下一代推理模型R2可能會(huì)比預(yù)期的5月更早發(fā)布。
考慮到DeepSeek R1是以V3作為基礎(chǔ)模型訓(xùn)練而來,此次V3-0324的亮相,或許也意味著R2愈發(fā)臨近了。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張廣凱 
-
騰訊等巨頭攜手入股智元機(jī)器人
2025-03-25 13:29 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
消息稱京東入局具身智能賽道
2025-03-25 13:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
原華為副總裁擔(dān)任智元機(jī)器人董事長(zhǎng)兼CEO
2025-03-25 12:36 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
蔡崇信:企業(yè)家信心明顯增強(qiáng),阿里巴巴將重啟招聘
2025-03-25 11:05 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
上海發(fā)布2025重點(diǎn)產(chǎn)業(yè)布局圖
2025-03-25 10:31 觀網(wǎng)財(cái)經(jīng)-宏觀 -
“讓機(jī)器服務(wù)于人,而不是人為機(jī)器服務(wù)”
2025-03-25 09:29 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
茶咖日?qǐng)?bào)|茉莉奶白被曝喝出完整塑料袋,官方回應(yīng):已閉店
2025-03-24 21:00 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
京東外賣上線40天,日訂單首破百萬
2025-03-24 18:12 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
宣布斥資15億布局香港后,京東要把家電價(jià)格打到全港最低
2025-03-24 18:12 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
2元一根的妙可藍(lán)多奶酪,去年又掙了1.13億
2025-03-24 17:34 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
途虎養(yǎng)車全網(wǎng)首發(fā)德國馬牌ExtremeContact XC7全新輪胎產(chǎn)品線
2025-03-24 17:26 -
控量挺價(jià)成效待考,舍得酒業(yè)2024年凈利驟降80%
2025-03-24 17:25 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
教培跑路頻發(fā),美團(tuán)這招行不行?
2025-03-24 17:24 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
2024年中國財(cái)政政策執(zhí)行情況報(bào)告發(fā)布
2025-03-24 16:23 -
-
五大芯片巨頭來華參會(huì),高通三星高管到訪小米汽車工廠
2025-03-24 11:44 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
中科院專家:RISC-V開辟中國芯片自主新賽道,還需攻克“三座大山”
2025-03-23 16:07 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
絲芙蘭迷失在中國,全球CEO緊急“救火”
2025-03-23 09:39 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
華為楊超斌:已有超80家伙伴基于昇騰打造大模型一體機(jī)
2025-03-22 21:40 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
-
真急了!“請(qǐng)求中國取消限制” 評(píng)論 65歐盟多國大停電,“我們需要中國技術(shù)” 評(píng)論 110中俄元首在主觀禮臺(tái)出席紅場(chǎng)閱兵式 評(píng)論 57英方拿到了,“簡(jiǎn)直像在平行宇宙,中國太超前了” 評(píng)論 88“全球都將研究,中國與西方最強(qiáng)大武器直接對(duì)決” 評(píng)論 390最新聞 Hot
-
真急了!“請(qǐng)求中國取消限制”
-
嚴(yán)管執(zhí)行!中方再出手,美媒發(fā)愁
-
俄副總理:中俄“西伯利亞力量-2”項(xiàng)目談判取得進(jìn)展
-
“歐洲在華企業(yè)偷著樂:機(jī)會(huì)來了”
-
歐盟多國大停電,“我們需要中國技術(shù)”
-
普京閱兵式演講,特別提到中國
-
“對(duì)華閹割版,又要降級(jí)”
-
“全球都將研究,中國與西方最強(qiáng)大武器直接對(duì)決”
-
英方拿到了,“簡(jiǎn)直像在平行宇宙,中國太超前了”
-
微軟:從中企學(xué)到,誰先一步拿下,誰就難被取代
-
美國農(nóng)民發(fā)愁:雞爪、魚頭...除了中國,好難找到買家
-
首位“美國教皇”利奧十四世是誰?
-
許紅兵,主動(dòng)投案
-
美國官員:殲-10擊落陣風(fēng),沒用F-16
-
特朗普:對(duì)華關(guān)稅145%到頂了,要降
-
美大使污蔑“中國不是好盟友”,我駐巴拿馬使館駁斥
-