-
“起大早趕晚集”的谷歌大模型,這次真的“遙遙領(lǐng)先”了?
最早推出Transformer架構(gòu)的谷歌,一度在大模型競(jìng)賽中落后。好在隨著Gemini的不斷進(jìn)化,谷歌正在回到第一梯隊(duì)。
3月26日,Gemini 2.5 Pro上線,這個(gè)模型一經(jīng)推出就登頂各大榜單,在Chatbot Arena上較第二名高出整整39分!
Gemini 2.5 Pro是一款推理模型。谷歌表示,推理能力不僅僅指分類和預(yù)測(cè),而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別,以及做出明智決策的能力。
據(jù)悉Gemini 2.5 Pro 目前支持 100 萬(wàn) token 的上下文窗口,很快將推出200萬(wàn)token的上下文窗口,繼承并發(fā)揚(yáng)了 Gemini 模型的優(yōu)勢(shì)——原生多模態(tài)能力和超長(zhǎng)上下文長(zhǎng)度。
這讓它能夠理解海量數(shù)據(jù)集,并處理來(lái)自多種信息源的復(fù)雜問(wèn)題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉(cāng)庫(kù)。
在Chatbot Arena(由加州大學(xué)伯克利分校 SkyLab 和 LMSYS 的研究者開發(fā),主要用于根據(jù)人類偏好評(píng)估大語(yǔ)言模型的性能)上,Gemini 2.5 Pro以橫掃所有類別的顯著優(yōu)勢(shì)排名第一,并且比緊隨其后的Grok-3整整高出了39分。
同時(shí)Gemini 2.5 Pro還獲得了創(chuàng)意寫作、指令遵循和長(zhǎng)查詢?nèi)箢I(lǐng)域唯一的冠軍。
此外,Gemini 2.5 Pro成功登頂了視覺(jué)競(jìng)技場(chǎng)(Vision Arena)排行榜榜首。
在網(wǎng)頁(yè)開發(fā)領(lǐng)域,作為首個(gè)實(shí)力媲美 Claude 3.7 Sonnet 的模型,Gemini 2.5 Pro成功獲得了網(wǎng)頁(yè)開發(fā)競(jìng)技場(chǎng)(WebDev Arena)的第二名。
不僅如此,Gemini 2.5 Pro在Humanity’s Last Exam(no tools),GPQA和 AIME 2025等數(shù)學(xué)和科學(xué)基準(zhǔn)評(píng)測(cè)中同樣表現(xiàn)卓越。
Humanity’s Last Exam (no tools)即 “人類的最后考試(無(wú)工具)”,這里的 “無(wú)工具” 指在進(jìn)行該考試時(shí),不允許使用外部工具,如搜索引擎、數(shù)據(jù)庫(kù)等。已往實(shí)驗(yàn)顯示,最先進(jìn)的 LLMs 在 HLE 上的準(zhǔn)確率普遍低于 10%,且存在信心與能力失衡、推理效率低等問(wèn)題,表明當(dāng)前 LLM 的能力與人類專家在封閉式學(xué)術(shù)問(wèn)題上的前沿能力之間的差距。在這一背景下,Gemini 2.5 Pro 18.8%的成績(jī)顯得非常突出。
據(jù)悉,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應(yīng)用中,向 Gemini Advanced 用戶開放,并將在 Vertex AI 上推出。
而它會(huì)在未來(lái)幾周內(nèi)公布定價(jià)方案,用戶可以在更高使用配額下,將模型應(yīng)用于大規(guī)模生產(chǎn)環(huán)境。
有意思的是,最近國(guó)內(nèi)和國(guó)外兩大著名的“起大早趕晚集”選手都發(fā)布了最新大模型,含金量是否都能達(dá)到評(píng)測(cè)顯示的效果呢?
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 Gemini- 責(zé)任編輯: 張睿佳 
-
胖東來(lái),徹底“透明”
2025-03-26 14:26 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
補(bǔ)稅+罰款,印度要求三星支付44億
2025-03-26 14:04 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
騰訊元寶上線最新DeepSeekV3模型
2025-03-26 13:53 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
芯片巨頭互撕:高通在全球三大洲投訴ARM壟斷
2025-03-26 12:53 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
蘋果AI支持中文了,iPhone也能用5.5G了
2025-03-26 12:04 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
年輕的中國(guó)跨境賣家,瘋狂殺入“百萬(wàn)美金俱樂(lè)部”
2025-03-26 10:25 觀網(wǎng)財(cái)經(jīng)-海外 -
阿里官宣:與寶馬達(dá)成合作
2025-03-26 10:24 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
霸王茶姬招股書公布:2024年GMV為295億元,門店數(shù)達(dá)6440家
2025-03-26 09:51 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
-
4億大單,新西蘭農(nóng)業(yè)巨頭加碼中國(guó)市場(chǎng)
2025-03-25 16:23 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
謝廣軍已辭職?百度內(nèi)部人士回應(yīng)
2025-03-25 16:03 大公司 -
小米配股融資超400億港元,雷軍曾稱“不缺錢才好融資”
2025-03-25 15:35 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
珍酒李渡歸母凈利大降43.1%,核心品牌銷量“四連跌”
2025-03-25 15:16 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
DeepSeek“偷偷”發(fā)布新版本,最新測(cè)評(píng)來(lái)了
2025-03-25 14:25 -
騰訊等巨頭攜手入股智元機(jī)器人
2025-03-25 13:29 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
真急了!“請(qǐng)求中國(guó)取消限制” 評(píng)論 65歐盟多國(guó)大停電,“我們需要中國(guó)技術(shù)” 評(píng)論 110中俄元首在主觀禮臺(tái)出席紅場(chǎng)閱兵式 評(píng)論 57英方拿到了,“簡(jiǎn)直像在平行宇宙,中國(guó)太超前了” 評(píng)論 88“全球都將研究,中國(guó)與西方最強(qiáng)大武器直接對(duì)決” 評(píng)論 390最新聞 Hot
-
真急了!“請(qǐng)求中國(guó)取消限制”
-
嚴(yán)管執(zhí)行!中方再出手,美媒發(fā)愁
-
俄副總理:中俄“西伯利亞力量-2”項(xiàng)目談判取得進(jìn)展
-
“歐洲在華企業(yè)偷著樂(lè):機(jī)會(huì)來(lái)了”
-
歐盟多國(guó)大停電,“我們需要中國(guó)技術(shù)”
-
普京閱兵式演講,特別提到中國(guó)
-
“對(duì)華閹割版,又要降級(jí)”
-
“全球都將研究,中國(guó)與西方最強(qiáng)大武器直接對(duì)決”
-
英方拿到了,“簡(jiǎn)直像在平行宇宙,中國(guó)太超前了”
-
微軟:從中企學(xué)到,誰(shuí)先一步拿下,誰(shuí)就難被取代
-
美國(guó)農(nóng)民發(fā)愁:雞爪、魚頭...除了中國(guó),好難找到買家
-
首位“美國(guó)教皇”利奧十四世是誰(shuí)?
-
許紅兵,主動(dòng)投案
-
美國(guó)官員:殲-10擊落陣風(fēng),沒(méi)用F-16
-
特朗普:對(duì)華關(guān)稅145%到頂了,要降
-
美大使污蔑“中國(guó)不是好盟友”,我駐巴拿馬使館駁斥
-