-
OpenAI新推理模型價格驟降,總體性價比未能超越DeepSeek R1
最后更新: 2025-02-06 18:10:09當?shù)貢r間1月31日,美國OpenAI公司正式上線推理模型o3-mini,并首次向免費用戶開放推理模型,一同亮相的還有“滿血版”的o3模型。
來源:OpenAI
OpenAI表示,o3具備更先進、近似人類的推理能力,在解決編程、數(shù)學、科學等理工科問題方面均超越現(xiàn)役的o1模型。該公司曾表示,o3-mini會在1月底先上架,o3則“會在不久之后推出”。
根據(jù)介紹,o3-mini支持開發(fā)者調(diào)整“AI推理努力程度”的選項——分為低、中、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”,而需要效率時優(yōu)先考慮回應速度。開發(fā)者可根據(jù)需求選擇推理強度,平衡思考深度和響應速度,但不支持視覺任務(wù),視覺推理仍需使用o1。
在新聞稿中,OpenAI披露,在2024年美國數(shù)學邀請賽(AIME 2024)的測試中,低推理努力的o3-mini準確率(60%)與o1-mini差不多,但速率更快;而在中等努力下,o3-mini準確率能夠提升到79.6%,與o1模型相當。在最高努力水平時,o3-mini的準確率則能進一步提升至87.3%。
在博士級科學問題(GPQA Diamond)方面,三種努力程度模型的準確率分別為70.6%、76.8%和79.7%,該測試主要用于衡量模型在博士級別物理、生物和化學問題上的表現(xiàn)。
有外媒還將o3-mini和DeepSeek的R1模型進行了對比。
在AIME 2024測試中,o3-mini僅在高推理強度下表現(xiàn)優(yōu)于R1(79.8%)。在以編程為重點的SWE-bench Verified基準測試中,o3-mini同樣僅在高推理強度下以微弱優(yōu)勢(0.1 分)領(lǐng)先R1。在低推理強度下,o3-mini在GPQA Diamond基準測試中落后于R1(71.5%)。
OpenAI宣布,從當天開始,免費ChatGPT用戶也能通過在編輯器中選擇“推理”來嘗試o3-mini模型,這也是公司的推理模型首次向免費用戶開放。
對于付費用戶,o3-mini將在模型選擇器中替代o1-mini。作為升級的一部分,每月花費20美元左右的ChatGPT Plus和Team用戶,速率限制也從o1-mini的每天50條,提升到o3-mini的150條。每月支付200美元的ChatGPT Pro用戶,能無限制地訪問o3-mini。
近期,爆火的DeepSeek-R1模型對OpenAI構(gòu)成了競爭壓力,尤其在成本方面呈現(xiàn)出顯著差異。
OpenAI 的推理模型o1系列相對成本較高,o1模型的API定價為每百萬輸入tokens 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元(緩存命中)/0.55美元(緩存未命中),每百萬輸出tokens 2.19美元。
這次發(fā)布中,OpenAI強調(diào)了成本問題。與OpenAI的o1-mini相比,o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.40美元,。不過,相比DeepSeek-R1,o3-mini的價格依然高出了不少。
o3-mini與DeepSeek-R1價格對比
安全方面,OpenAI表示,在訓練o3-mini以實現(xiàn)安全響應的過程中,采用了一種關(guān)鍵技術(shù)--“深思熟慮的對齊(deliberative alignment)”。
通過這種方法,OpenAI訓練模型在回答用戶提示之前,先對人類編寫的安全規(guī)范進行推理??梢岳斫鉃?,OpenAI希望確保o3-mini生成的內(nèi)容更加安全、符合道德,并降低了模型生成不良或有害響應的風險。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責任編輯: 林鈴錦 
-
高通CEO:DeepSeek R1對高通有利
2025-02-06 17:57 觀網(wǎng)財經(jīng)-科創(chuàng) -
華為小藝、聯(lián)想小天等接入DeepSeek
2025-02-06 14:14 觀網(wǎng)財經(jīng)-科創(chuàng) -
變現(xiàn)困難還面臨跨賽道競爭,All in AI能幫Keep減虧嗎?
2025-02-06 13:23 大公司 -
全球頂尖AI科學家、前Salesforce副總裁加入阿里
2025-02-06 11:59 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
-
螞蟻集團官宣新任CFO
2025-02-06 11:20 觀網(wǎng)財經(jīng)-金融 -
蘋果跌了,這一消息是導火索?
2025-02-06 06:39 -
價格崩塌后,默沙東對華停供四價HPV疫苗
2025-02-05 19:48 產(chǎn)業(yè)萬象 -
英偉達出貨預期遭大幅下調(diào),國產(chǎn)算力集體支持DeepSeek
2025-02-05 17:16 觀網(wǎng)財經(jīng)-科創(chuàng) -
春節(jié)跨境游訂單增三成,日本成最熱目的地
2025-02-05 16:19 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
“酒系銀行”宜賓銀行3.5%股權(quán)流拍,20倍市盈率嚇退買家
2025-02-05 16:09 觀網(wǎng)財經(jīng)-金融 -
傳美國考慮將Shein和Temu列入“強迫勞動”名單,兩企業(yè)回應
2025-02-05 15:39 觀網(wǎng)財經(jīng)-海外 -
春節(jié)消費亮點出爐:非遺文化熱度飆升,智能產(chǎn)品引領(lǐng)換新潮
2025-02-05 15:29 觀網(wǎng)財經(jīng)-消費 -
美國知名測評:繼DeepSeek后,通義千問也追上OpenAI
2025-02-05 15:18 人工智能 -
美國郵政暫停接收來自中國內(nèi)地和香港的入境包裹
2025-02-05 14:44 觀網(wǎng)財經(jīng)-海外 -
華為董事長:去年營收超8600億
2025-02-05 14:03 觀網(wǎng)財經(jīng)-科創(chuàng) -
中國七大云廠商集中上線DeepSeek
2025-02-05 11:28 觀網(wǎng)財經(jīng)-科創(chuàng) -
A股deepseek概念掀漲停潮,機器人板塊走強
2025-02-05 10:56 觀網(wǎng)財經(jīng)-科創(chuàng) -
“硅谷有種常見病,認為圈外所有創(chuàng)新都是作弊得來的”
2025-02-02 21:01 觀網(wǎng)財經(jīng)-科創(chuàng) -
華為和DeepSeek聯(lián)手,硅基流動首發(fā)被擠爆
2025-02-01 18:23 觀網(wǎng)財經(jīng)-科創(chuàng)
相關(guān)推薦 -
最新聞 Hot
-
“特朗普夜不能寐,搞定全球問題比想象難得多”
-
靠岸中國貨船數(shù)“歸零”,美西港口官員驚到了
-
“出軌女下屬”,英國海軍一把手被免職
-
“聽加州的,否則美國最大經(jīng)濟體地位不?!?/a>
-
流浪53年后,蘇聯(lián)金星探測器墜落地球
-
伊朗官員:美國不真誠,一開始就設(shè)陷阱
-
?;鸬谝灰?,印巴互相指責
-
為什么選出美國籍教皇?梵蒂岡消息人士:還不是因為特朗普
-
普京提議:15日,俄烏直接談
-
王毅分別同印巴雙方通話
-
印度稱“不想升級”,巴方想“就此打住”
-
英法德波領(lǐng)導人訪問基輔,將與澤連斯基共同討論?;饐栴}
-
印軍否認S-400防空系統(tǒng)被摧毀
-
印度前高官:勸巴基斯坦,中國的話好使
-
空中爆炸!巴軍通報7日空戰(zhàn)細節(jié),含擊落“陣風”錄音
-
要松口了?印官員稱將“適時”公開
-