-
學(xué)會(huì)反思的國產(chǎn)大模型,真變強(qiáng)了?
-
張廣凱13764468101
真正能夠像人類一樣進(jìn)行邏輯推理的大模型,距離我們還有多遠(yuǎn)?
隨著OpenAI推出更側(cè)重推理能力的 o1大模型,推理大模型正成為行業(yè)新的競(jìng)爭方向。本周一,月之暗面推出的Kimi探索版,成為國產(chǎn)推理大模型的最新代表。
讓大模型學(xué)會(huì)推理的訣竅是什么?各家廠商都提到了一個(gè)關(guān)鍵詞——反思。通過將復(fù)雜問題一步步拆分,并且對(duì)每一步的輸出結(jié)果進(jìn)行反思檢驗(yàn),是降低大模型幻覺的有效途徑。而這樣的思路,看上去與人類的邏輯推理確實(shí)有一定相似性。
不過經(jīng)過實(shí)測(cè),我們發(fā)現(xiàn)現(xiàn)有大模型的邏輯推理能力仍然難以讓人滿意,這背后可能仍然繞不開大模型底層原理的限制。
但有趣的是,為了提高推理能力,國產(chǎn)大模型在使用工具的路上越走越遠(yuǎn),反而可能是當(dāng)下最現(xiàn)實(shí)的大模型落地途徑之一。
推理大模型,真的會(huì)做題嗎?
上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上線。
據(jù)官方介紹,Kimi探索版具備AI自主搜索能力,可以模擬人類的推理思考過程,多級(jí)分解復(fù)雜問題,執(zhí)行深度搜索,并即時(shí)反思改進(jìn)結(jié)果,提供更全面和準(zhǔn)確的答案,幫助你更高效地完成分析調(diào)研等復(fù)雜任務(wù)。
那么實(shí)測(cè)來看,Kimi探索版實(shí)力究竟如何?
談到推理能力,人們往往最先想到的是數(shù)學(xué)。很多測(cè)評(píng)都使用高等數(shù)學(xué)題目去測(cè)試大模型的推理能力,并且往往能夠取得不錯(cuò)的效果。
不過從實(shí)用層面來看,大部分用戶的需求并不是求解高數(shù),而是解決日常生活中的應(yīng)用題。
所以,我們打算讓Kimi替最近上市的新車樂道L60算筆賬。
蔚來換電體系下獨(dú)特的BaaS電池租賃方案,讓不少消費(fèi)者在計(jì)算用車成本的時(shí)候也感到頭疼,樂道L60發(fā)布會(huì)后,到底怎么買更劃算引起了網(wǎng)友熱烈討論,不少網(wǎng)友甚至搬出了專業(yè)的會(huì)計(jì)知識(shí)。
我們問Kimi的問題是這樣的:分析樂道L60車輛采用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個(gè)更劃算。
可以看到,Kimi正確理解了BaaS的含義,雖然沒有意識(shí)到樂道是換電而不是充電,不過按充電成本算也沒有太大出入,整個(gè)邏輯基本是清晰的。
問題在于,雖然一開始提到了購車價(jià)格,但是在總用車成本的計(jì)算上,Kimi卻并沒有加上購車成本的折舊,沒達(dá)到我們想要的效果。
于是,我們要求Kimi把折舊成本考慮進(jìn)去,結(jié)果是這樣的:
在最后的結(jié)論里,Kimi對(duì)購車價(jià)格和折舊成本進(jìn)行了重復(fù)計(jì)算,顯然是錯(cuò)誤的。而這個(gè)錯(cuò)誤,恰恰說明Kimi對(duì)于成本和折舊的邏輯理解還存在不足。
作為對(duì)比,我們用ChatGPT-4o mini測(cè)試了相同的問題,發(fā)現(xiàn)4o mini可以正確理解包括折舊、BaaS在內(nèi)的各項(xiàng)成本的邏輯,可是卻沒有正確獲得車輛的價(jià)格。
也就是說,Kimi并沒有表現(xiàn)出比GPT-4更好的邏輯能力,但是在中文信息檢索能力上卻更加優(yōu)秀。事實(shí)上,后者也是Kimi真正的強(qiáng)項(xiàng)所在,后面我們會(huì)再次討論這一點(diǎn)。
不過在此之前,我們還發(fā)現(xiàn)了一個(gè)相對(duì)小眾的選手——學(xué)而思九章大模型,也相當(dāng)值得關(guān)注。
提到學(xué)而思,大家都知道它是以教培起家,尤其擅長數(shù)學(xué)教學(xué)。而九章大模型也繼承了學(xué)而思的特長,專攻教育領(lǐng)域,并且宣稱有更好的數(shù)學(xué)能力。
當(dāng)我們以上述問題測(cè)試九章大模型時(shí),它的表現(xiàn)非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念,還具體獲得了樂道BaaS“滿四減一”優(yōu)惠、實(shí)際電耗水平等信息,因此給出的答案更能解決問題。
但美中不足的是,它并沒有給出車輛折舊的具體數(shù)字,導(dǎo)致最終沒有輸出一個(gè)明確的答案。
這究竟是一個(gè)缺點(diǎn),還是優(yōu)點(diǎn)?其實(shí)從邏輯來看,九章這么做的原因,應(yīng)該是同樣出于“具體問題具體分析”的理念,由于自己沒辦法確定相關(guān)車輛的具體折舊率,因此就直接說明自己的不確定,充分保證了答案的嚴(yán)謹(jǐn)性。
看上去,九章的確更像是一個(gè)嚴(yán)謹(jǐn)、可靠的數(shù)學(xué)模型。
AI可能還沒有學(xué)會(huì)推理
強(qiáng)化大語言模型的推理能力,在技術(shù)上是怎么實(shí)現(xiàn)的?大家都提到了一個(gè)關(guān)鍵詞——反思。
月之暗面方面指出:就像人一樣,Kimi探索版可以借助反思能力,來提升和改進(jìn)回答的質(zhì)量。面對(duì)開放探索型問題,Kimi探索版發(fā)現(xiàn)第一次回答的信息存在缺失,會(huì)主動(dòng)補(bǔ)充回答更多。面對(duì)數(shù)字相關(guān)的搜索問題,Kimi了解更多信息后如果發(fā)現(xiàn)了數(shù)據(jù)沖突,則會(huì)及時(shí)補(bǔ)充提供多方視角的信息供參考決策。
從上面的演示中可以看到,Kimi會(huì)把自己的思考過程展示出來,讓用戶明確看到自己進(jìn)行了一次補(bǔ)充檢索。
九章大模型負(fù)責(zé)人白錦峰進(jìn)一步解釋說,同大模型類似,人類在幼年時(shí)期同樣缺乏邏輯能力,會(huì)產(chǎn)生幻覺。但隨著人類的成長,會(huì)逐漸學(xué)會(huì)邏輯推理,讓自己的觀點(diǎn)在邏輯上自洽,并拿觀點(diǎn)去跟已經(jīng)存在的事實(shí)進(jìn)行校驗(yàn),從而消除幻覺。
白錦峰表示,目前大語言模型的第一性原理是Next Token Prediction,也就是通過預(yù)測(cè)下一個(gè)字符的方式給出答案,而這種預(yù)測(cè)是基于概率的,這決定了大模型一定會(huì)有出錯(cuò)的概率。
為了提升準(zhǔn)確率,目前的推理大模型普遍應(yīng)用了CoT(思維鏈)和Voting&Verifier兩種算法,前者將復(fù)雜問題拆分為多個(gè)步驟,后者則對(duì)于每一步的結(jié)果進(jìn)行反思,多做幾次檢驗(yàn)來找到一致性最高的答案。
這兩種算法模仿了人類思維方式中的校驗(yàn)過程,但其實(shí)仍然是基于概率,而不是邏輯推理。白錦峰指出,為了真正保證結(jié)果的正確性,大模型還需要應(yīng)用定律的技術(shù),例如學(xué)會(huì)使用數(shù)學(xué)定律來解決問題。
但是在應(yīng)用定律方面,大模型仍然存在根本性的難點(diǎn)。白錦峰舉例說,像加法交換律(a+b=b+a)這樣簡單的定律,人類可以直接理解公式,但是大模型只能通過窮舉大量的案例(1+2=2+1等)來悟到這個(gè)規(guī)律。
因此,對(duì)于當(dāng)前的大模型技術(shù)能否真正實(shí)現(xiàn)推理能力,很多人并不樂觀。美國著名AI科學(xué)家Yann LeCun近日就尖銳地表示,當(dāng)下的模型“似乎在進(jìn)行推理,但實(shí)際上它們只是在重復(fù)已經(jīng)訓(xùn)練過的信息”,按照現(xiàn)有訓(xùn)練方式,無論多少GPU都不會(huì)讓我們實(shí)現(xiàn)AGI。
蘋果AI團(tuán)隊(duì)的最新研究也認(rèn)為:大語言模型在相同問題的不同版本上表現(xiàn)出高性能差異、難度略微增加時(shí)性能大幅下降以及對(duì)無關(guān)信息的敏感性,表明其推理能力很脆弱。它可能更像是復(fù)雜的模式匹配,而不是真正的邏輯推理。
從大模型到Agent
盡管以AGI的標(biāo)準(zhǔn)來衡量,目前的推理大模型還遠(yuǎn)遠(yuǎn)不夠完善,但是從實(shí)用層面,國產(chǎn)大模型正在這輪推理競(jìng)賽展現(xiàn)出了一個(gè)重要進(jìn)化——調(diào)用工具。
例如,九章大模型在解決數(shù)學(xué)問題的時(shí)候,采用了一個(gè)看似原始卻非常實(shí)用的辦法——直接調(diào)用計(jì)算器。就像人類一樣,學(xué)會(huì)使用工具,也是AI應(yīng)當(dāng)具備的能力。
Kimi調(diào)用的工具則是搜索引擎。Kimi探索版在回答問題時(shí),最高能夠搜索并精讀500個(gè)網(wǎng)頁,相較于此前版本提升了10倍。
而且我們?cè)趯?shí)測(cè)中發(fā)現(xiàn),Kimi列出的參考頁面普遍都來自較為權(quán)威的站點(diǎn),內(nèi)容質(zhì)量也相對(duì)較高。在開放性的問題中,Kimi能夠充分保證輸出的客觀和準(zhǔn)確性,這才是探索版給我們印象最深刻的地方。
Kimi 探索版產(chǎn)品負(fù)責(zé)人表示,“如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統(tǒng)搜索引擎找到。未來搜索引擎會(huì)成為AI更擅長調(diào)用的工具,人只需要專注于提出好的問題,AI就可以結(jié)合模型本身的能力在龐大的互聯(lián)網(wǎng)中自主海量搜索,不斷反思迭代,更精準(zhǔn)地找到所需答案。”
對(duì)于大部分普通用戶來說,這話并不夸張。
從本質(zhì)上講,調(diào)用工具使得這些模型更接近于AI Agent的概念。尤其是對(duì)于Kimi探索版,相當(dāng)于替用戶完成了網(wǎng)頁檢索的任務(wù),并且能夠幫助用戶去除搜索引擎中大量的低質(zhì)量和營銷內(nèi)容,實(shí)用性極強(qiáng)。
如果說,當(dāng)前的AI理論本身就限制了大模型難以實(shí)現(xiàn)真正的邏輯能力,那么在理論突破之前,如何最大化模型的實(shí)用性,讓AI從Copilot向Agent盡可能地邁進(jìn),就是當(dāng)下最重要的命題。
此外,從Kimi、九章的表現(xiàn)來看,國產(chǎn)大模型如今繼續(xù)提升實(shí)用性的方式,并不一定是增加規(guī)模,或者提出什么獨(dú)特的算法,而是通過專注于自己最擅長的垂直領(lǐng)域來提升準(zhǔn)確率,并形成獨(dú)特護(hù)城河。
白錦峰舉例說,對(duì)于教育大模型來說,能答對(duì)問題和能教好學(xué)生之間,仍然存在區(qū)別。例如同樣是除法,用除號(hào)還是用分號(hào)來表示,在教學(xué)中就是不一樣的。對(duì)于小學(xué)生來說,因?yàn)檫€沒有學(xué)過分?jǐn)?shù),所以用分號(hào)就是錯(cuò)誤的回答。因此,學(xué)而思利用自己長期積累的教材和教師資源,能夠做出更好的教育大模型。
專注垂直,也能夠讓成本更加可控。學(xué)而思方面人士向觀察者網(wǎng)直言,大模型初期投入是不可避免的,目前也看不到直接的回報(bào),但投入又是必須要做的,否則等到技術(shù)成熟再發(fā)力,早就失去了上牌桌的機(jī)會(huì)。
但是學(xué)而思并沒有選擇去自己研發(fā)基座大模型,而是基于開源大模型的基礎(chǔ),在百度云上進(jìn)行千卡規(guī)模的訓(xùn)練,以可控的成本實(shí)現(xiàn)了不錯(cuò)的性能。
因此,國產(chǎn)推理大模型當(dāng)下給我們的最大啟示,或許仍然是實(shí)用為王。
標(biāo)簽 大模型- 責(zé)任編輯: 張廣凱 
-
滬指大漲近3%,創(chuàng)業(yè)板指飆升近8%!兩市成交額創(chuàng)9日以來新高
2024-10-18 15:12 金融觀察 -
滬深兩市成交突破1.5萬億,芯片行業(yè)ETF放量飆升
2024-10-18 14:10 觀網(wǎng)財(cái)經(jīng)-金融 -
吳清:加快落實(shí)中長資金入市,嚴(yán)懲違規(guī)減持
2024-10-18 13:59 觀網(wǎng)財(cái)經(jīng)-宏觀 -
央行兩項(xiàng)新工具今日實(shí)施!“預(yù)計(jì)還有降準(zhǔn)降息”
2024-10-18 12:50 觀網(wǎng)財(cái)經(jīng)-金融 -
諾基亞在中國裁員近2000人,在華份額已不到5%
2024-10-18 11:19 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
李德仁院士提出“時(shí)空智能學(xué)”
2024-10-18 10:00 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
歐洲央行宣布降息25個(gè)基點(diǎn)
2024-10-17 20:34 金融觀察 -
-
存量房貸下調(diào)后還有紅包:下月起定價(jià)機(jī)制可重新協(xié)商?
2024-10-17 18:35 觀網(wǎng)財(cái)經(jīng)-金融 -
?茅臺(tái)在香港降價(jià)千元?門店員工稱暫未接到通知
2024-10-17 18:04 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
成都將迎大規(guī)模拆遷?房小團(tuán)發(fā)布澄清聲明
2024-10-17 16:23 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
英特爾向聯(lián)想交付1.8納米CPU樣品
2024-10-17 16:18 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
李彥宏:AI幻覺已基本解決,泡沫后1%的AI企業(yè)能脫穎而出
2024-10-17 15:45 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
你的寶貝正在路上,終于被翻譯對(duì)了
2024-10-17 13:41 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
京東物流官宣:將為淘寶天貓商家提供服務(wù)
2024-10-17 13:41 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
英特爾表態(tài)
2024-10-17 13:06 -
住建部回應(yīng)樓市“虹吸效應(yīng)”
2024-10-17 10:48 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
朔爾茨再批歐盟對(duì)華關(guān)稅:我的訴求是…
2024-10-17 09:16 德意志 -
無錫新政:可用上海二手房換購無錫新房
2024-10-16 23:03 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
“中國拯救世界”,一部正在發(fā)生的偉大史詩
2024-10-16 18:17 觀察者頭條
相關(guān)推薦 -
-
“中美會(huì)談成果遠(yuǎn)超預(yù)期,是一個(gè)非常好的起點(diǎn)” 評(píng)論 88中美日內(nèi)瓦經(jīng)貿(mào)會(huì)談聯(lián)合聲明 評(píng)論 1089卡塔爾送大禮引爭議,特朗普:免費(fèi)的也罵? 評(píng)論 160何立峰:中美達(dá)成重要共識(shí) 評(píng)論 306“中國猛龍首露利爪,實(shí)戰(zhàn)證明自身價(jià)值” 評(píng)論 262最新聞 Hot
-
特朗普要“幫忙”,印度拒絕了
-
“他想在大馬士革建特朗普大廈”
-
中美日內(nèi)瓦經(jīng)貿(mào)會(huì)談聯(lián)合聲明
-
中方嚴(yán)管稀土出口,印度也“慌了”
-
“他有望在獄中贏得市長選舉”
-
石破茂再強(qiáng)硬表態(tài):美國,還不降
-
美方吹風(fēng)會(huì):中美都不想“脫鉤”,同意稅率下調(diào)115%
-
卡塔爾送大禮引爭議,特朗普:免費(fèi)的也罵?
-
美國小企業(yè)苦苦掙扎:利潤蒸發(fā)甚至變?yōu)樨?fù)數(shù),最糟的時(shí)刻還未到來
-
特朗普施壓后,澤連斯基表態(tài):我去土耳其等普京
-
日車企利潤暴跌超20%,“與中國競(jìng)爭加劇”
-
中美會(huì)談結(jié)束后,美國股指期貨應(yīng)聲上漲
-
“特朗普夜不能寐,搞定全球問題比想象難得多”
-
靠岸中國貨船數(shù)“歸零”,美西港口官員驚到了
-
“出軌女下屬”,英國海軍一把手被免職
-
“聽加州的,否則美國最大經(jīng)濟(jì)體地位不?!?/a>
-