欧美videos巨大,国产成人精品福利一区二区三区

APP下載

掃一掃

下載觀察者APP

阿里、Kimi推理大模型集中發(fā)布，實(shí)際效果卻……
- 張廣凱13764468101
分享到：

2024-11-28 19:16:21 字號(hào)：A- A A+ 來(lái)源：觀察者網(wǎng)

28日，阿里通義千問(wèn)推出了自己的數(shù)學(xué)推理大模型——QwQ-32B-Preview。這是繼Kimi之后，近期第二款對(duì)標(biāo)OpenAI o1系列的推理大模型。

據(jù)介紹，QwQ-32B-Preview包含325億個(gè)參數(shù)，能夠處理最長(zhǎng)32000個(gè)tokens的提示詞，在GPQA測(cè)試中的評(píng)分為 65.2%，展示了研究生水平的科學(xué)推理能力。在AIME和MATH基準(zhǔn)測(cè)試中，它的表現(xiàn)優(yōu)于OpenAI的兩個(gè)推理模型o1-preview和o1-mini。

并且，QwQ-32B-Preview在更加寬松的Apache 2.0許可證下“公開(kāi)”可用，這意味著它可以用于商業(yè)用途。

此前的11月16日，在Kimi正式上線一周年之際，月之暗面發(fā)布了最新數(shù)學(xué)模型k0-math。宣稱在中考、高考、考研以及入門競(jìng)賽題MATH等4個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中，可以超越OpenAI o1-mini和o1-preview。

那么這兩個(gè)國(guó)產(chǎn)推理大模型的實(shí)際能力究竟如何？

值得一提的是，通義官方在QwQ的介紹文章中，首先提到的并不是其性能，而是自己的局限性。文章指出，作為預(yù)覽版本，QwQ-32B-Preview 展現(xiàn)了令人期待的分析能力，同時(shí)也存在以下局限：

1.語(yǔ)言切換問(wèn)題：模型可能在回答中混合使用不同語(yǔ)言，影響表達(dá)的連貫性。

2.推理循環(huán)：在處理復(fù)雜邏輯問(wèn)題時(shí)，模型偶爾會(huì)陷入遞歸推理模式，在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力，但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。

3.安全性考慮：盡管模型已具備基礎(chǔ)安全管控，但仍需要進(jìn)一步增強(qiáng)。它可能產(chǎn)生不恰當(dāng)或存在偏見(jiàn)的回答，且與其他大型語(yǔ)言模型一樣，可能受到對(duì)抗攻擊的影響。我們強(qiáng)烈建議用戶在生產(chǎn)環(huán)境中謹(jǐn)慎使用，并采取適當(dāng)?shù)陌踩雷o(hù)措施。

4.能力差異：QwQ-32B-Preview 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色，但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專業(yè)程度而波動(dòng)。我們正通過(guò)持續(xù)優(yōu)化，努力提升模型的綜合能力。

上述文章指出，“QwQ 既展現(xiàn)出能力，又保持著謙遜；既積累知識(shí)，又永遠(yuǎn)對(duì)未知充滿好奇?！痹诳磻T了自吹自擂的商業(yè)通稿之后，通義的這種謙遜態(tài)度已經(jīng)足以眼前一亮。

于是我們拿幾個(gè)問(wèn)題實(shí)際測(cè)試了上述兩個(gè)模型的能力。

首先是出自今年高考全國(guó)卷的一個(gè)數(shù)學(xué)題：當(dāng)x∈[0,2π]時(shí),曲線y=sinx與y=2sin(3x-π/(6))的交點(diǎn)個(gè)數(shù)有幾個(gè)？

面對(duì)這種非常標(biāo)準(zhǔn)化的問(wèn)題，QwQ和k0-math都表現(xiàn)不錯(cuò)，給出了正確的答案：6個(gè)。

而且，兩者都體現(xiàn)出了推理大模型的一個(gè)重要能力——自我反思。

在解題過(guò)程中，它們首先嘗試了代數(shù)方法，把問(wèn)題轉(zhuǎn)化為求解方程sinx=2sin(3x-π/(6))。但發(fā)現(xiàn)這個(gè)方程非常難解之后，又推翻了最初的方法，轉(zhuǎn)而尋求幾何方法來(lái)解題。

上圖是k0-math，下圖是QwQ的思考過(guò)程

在用幾何方法走通之后，兩個(gè)大模型也都絞盡腦汁，用代數(shù)方法重新求解，并得到了正確答案。k0-math甚至在解題之后還檢查了一遍。

可以看到，在純粹的數(shù)學(xué)能力上，兩個(gè)模型至少都達(dá)到了普通人的水平。

不過(guò)正如通義文章中所說(shuō)，隨著問(wèn)題的復(fù)雜度和專業(yè)性提高，它們的表現(xiàn)還不盡如人意。

不久之前，我們?cè)?jīng)拿一個(gè)用車成本的問(wèn)題測(cè)試過(guò)幾個(gè)大模型的邏輯能力，這次我們不妨再試一次。問(wèn)題如下：分析樂(lè)道L60車輛采用BaaS方案下的每年用車成本，BaaS方案和電池買斷方案哪個(gè)更劃算。

這個(gè)問(wèn)題既涉及到BaaS方案本身的復(fù)雜性，而且由于問(wèn)題表述相對(duì)模糊，更考驗(yàn)大模型像人一樣理解問(wèn)題的能力。

這次，兩個(gè)模型也都不同程度上翻車了。

首先，k0-math基本正確給出了計(jì)算方式，但是在具體每項(xiàng)成本的計(jì)算上使用了英里和美元作為單位，具體價(jià)格也僅為假設(shè)，而不是像Kimi探索版那樣通過(guò)搜索獲得準(zhǔn)確價(jià)格。

這體現(xiàn)出k0-math和Kimi探索版的鮮明區(qū)別——雖然強(qiáng)化邏輯，但或許是出于降低成本而弱化了搜索能力。

QwQ卻在邏輯上也存在瑕疵。

從上圖可以看到，QwQ很“貼心”地考慮了貸款購(gòu)車的情況，給出了5年分期方案。不過(guò)這個(gè)簡(jiǎn)單的單利貸款的月供問(wèn)題，QwQ卻算錯(cuò)了。

而在最后的匯總環(huán)節(jié)，QwQ又把全款購(gòu)車費(fèi)用和貸款月供進(jìn)行了重復(fù)計(jì)算，極大高估了總體用車成本。

目前看來(lái)，所謂推理大模型，主要還是依賴于兩種算法的加強(qiáng)——對(duì)復(fù)雜問(wèn)題的拆分，以及通過(guò)反思來(lái)檢查。但想要真正具有人類一樣的推理能力，僅有這兩個(gè)原則性方法還是遠(yuǎn)遠(yuǎn)不夠的，仍然需要產(chǎn)品層面的進(jìn)一步完善。
本文系觀察者網(wǎng)獨(dú)家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載。
|

舉報(bào)
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實(shí)信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報(bào)制度規(guī)范
確定取消
標(biāo)簽大模型
- 責(zé)任編輯: 張廣凱
- 中國(guó)手機(jī)廠商引領(lǐng)市場(chǎng)反彈，iPhone錯(cuò)失增長(zhǎng)良機(jī)
  
  2024-11-28 18:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 中鐵建投資集團(tuán)副總經(jīng)理馬建軍墜樓
  
  2024-11-28 13:48
- 為應(yīng)對(duì)特朗普加征關(guān)稅，美科技巨頭急囤中國(guó)零部件？
  
  2024-11-28 12:51 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 事關(guān)中企10億美元鋰礦項(xiàng)目，有最新消息
  
  2024-11-28 12:41 海外投資
- 美國(guó)兩大PC巨頭股價(jià)同時(shí)崩盤，怎么回事？
  
  2024-11-28 10:49 大公司
- 前實(shí)習(xí)生篡改代碼攻擊公司模型訓(xùn)練，字節(jié)跳動(dòng)起訴索賠802萬(wàn)
  
  2024-11-28 10:22
- 美國(guó)政府對(duì)英特爾補(bǔ)貼“縮水”至79億美元
  
  2024-11-28 09:30 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 中國(guó)5G智能工廠，何以讓國(guó)外廠商驚嘆？
  
  2024-11-27 17:20 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 霸王茶姬加速出海，即將攻入美國(guó)市場(chǎng)
  
  2024-11-27 16:34 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
- 劉尚希：中央財(cái)政支出比例應(yīng)提高到30%以上
  
  2024-11-27 15:48
- 滬指漲超1%重回3300點(diǎn)，谷子經(jīng)濟(jì)概念股持續(xù)爆發(fā)
  
  2024-11-27 15:15 金融觀察
- 許家印又被采取限制消費(fèi)措施，股票繼續(xù)停牌
  
  2024-11-27 14:00 觀網(wǎng)財(cái)經(jīng)-金融
- 順豐登陸港股，前三季度營(yíng)收超2000億
  
  2024-11-27 13:21 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 英偉達(dá)被曝將在華推出閹割版5090顯卡
  
  2024-11-27 12:51 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- A股深V翻紅，個(gè)股跌多漲少
  
  2024-11-27 12:43 觀網(wǎng)財(cái)經(jīng)-金融
- 小米在武漢新建智能家電工廠，一期聚焦家用空調(diào)
  
  2024-11-27 12:05 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- Sora突遭泄露，OpenAI急“拔網(wǎng)線”
  
  2024-11-27 12:02 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 酷狗回懟網(wǎng)易云音樂(lè)：DIY功能不是我先做的么？
  
  2024-11-27 11:10 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 騰訊：國(guó)行Switch將停止網(wǎng)絡(luò)類服務(wù)
  
  2024-11-27 10:29 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 1-10月份全國(guó)規(guī)模以上工業(yè)企業(yè)利潤(rùn)同比下降4.3%
  
  2024-11-27 10:03 宏觀經(jīng)濟(jì)
搜索

   觀察者頭條查看全部

真急了！“請(qǐng)求中國(guó)取消限制” 評(píng)論 65

歐盟多國(guó)大停電，“我們需要中國(guó)技術(shù)” 評(píng)論 110

中俄元首在主觀禮臺(tái)出席紅場(chǎng)閱兵式評(píng)論 57

英方拿到了，“簡(jiǎn)直像在平行宇宙，中國(guó)太超前了” 評(píng)論 88

“全球都將研究，中國(guó)與西方最強(qiáng)大武器直接對(duì)決” 評(píng)論 390

   風(fēng)聞 · 24小時(shí)最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

97色成人综合网站,97色成人综合网站,高清freesexmovies性tv出水,大黑大巴大战欧洲美女图片,√天堂资源中文www

阿里、Kimi推理大模型集中發(fā)布，實(shí)際效果卻……

中國(guó)手機(jī)廠商引領(lǐng)市場(chǎng)反彈，iPhone錯(cuò)失增長(zhǎng)良機(jī)

中鐵建投資集團(tuán)副總經(jīng)理馬建軍墜樓

為應(yīng)對(duì)特朗普加征關(guān)稅，美科技巨頭急囤中國(guó)零部件？

事關(guān)中企10億美元鋰礦項(xiàng)目，有最新消息

美國(guó)兩大PC巨頭股價(jià)同時(shí)崩盤，怎么回事？

前實(shí)習(xí)生篡改代碼攻擊公司模型訓(xùn)練，字節(jié)跳動(dòng)起訴索賠802萬(wàn)

美國(guó)政府對(duì)英特爾補(bǔ)貼“縮水”至79億美元

中國(guó)5G智能工廠，何以讓國(guó)外廠商驚嘆？

霸王茶姬加速出海，即將攻入美國(guó)市場(chǎng)

劉尚希：中央財(cái)政支出比例應(yīng)提高到30%以上

滬指漲超1%重回3300點(diǎn)，谷子經(jīng)濟(jì)概念股持續(xù)爆發(fā)

許家印又被采取限制消費(fèi)措施，股票繼續(xù)停牌

順豐登陸港股，前三季度營(yíng)收超2000億

英偉達(dá)被曝將在華推出閹割版5090顯卡

A股深V翻紅，個(gè)股跌多漲少

小米在武漢新建智能家電工廠，一期聚焦家用空調(diào)

Sora突遭泄露，OpenAI急“拔網(wǎng)線”

酷狗回懟網(wǎng)易云音樂(lè)：DIY功能不是我先做的么？

騰訊：國(guó)行Switch將停止網(wǎng)絡(luò)類服務(wù)

1-10月份全國(guó)規(guī)模以上工業(yè)企業(yè)利潤(rùn)同比下降4.3%

真急了！“請(qǐng)求中國(guó)取消限制”

嚴(yán)管執(zhí)行！中方再出手，美媒發(fā)愁

俄副總理：中俄“西伯利亞力量-2”項(xiàng)目談判取得進(jìn)展

“歐洲在華企業(yè)偷著樂(lè)：機(jī)會(huì)來(lái)了”

歐盟多國(guó)大停電，“我們需要中國(guó)技術(shù)”

普京閱兵式演講，特別提到中國(guó)

“對(duì)華閹割版，又要降級(jí)”

“全球都將研究，中國(guó)與西方最強(qiáng)大武器直接對(duì)決”

英方拿到了，“簡(jiǎn)直像在平行宇宙，中國(guó)太超前了”

微軟：從中企學(xué)到，誰(shuí)先一步拿下，誰(shuí)就難被取代

美國(guó)農(nóng)民發(fā)愁：雞爪、魚頭...除了中國(guó)，好難找到買家

首位“美國(guó)教皇”利奧十四世是誰(shuí)？

許紅兵，主動(dòng)投案

美國(guó)官員：殲-10擊落陣風(fēng)，沒(méi)用F-16

特朗普：對(duì)華關(guān)稅145%到頂了，要降

美大使污蔑“中國(guó)不是好盟友”，我駐巴拿馬使館駁斥

阿里、Kimi推理大模型集中發(fā)布，實(shí)際效果卻……

阿里、Kimi推理大模型集中發(fā)布，實(shí)際效果卻……