-
張維為《這就是中國》第274期| DeepSeek震撼
最后更新: 2025-03-16 14:11:02“一個巨大的變化,就是一個產(chǎn)品出現(xiàn)之后,它帶來的是整個外部世界對中國看法的改變?!?
“到了人工智能時代,這個情況發(fā)生了很大的逆轉(zhuǎn),為什么中文在人工智能中存在這樣的一個技術優(yōu)勢呢?”
前段時間DeepSeek是火爆出圈了,不僅在科技界引起了廣泛的震動,很多普通人現(xiàn)在也開始在使用DeepSeek,甚至有的政府機構也開始在應用上引入了DeepSeek。大家可能很好奇,為什么中國在人工智能時代會不斷地有火爆的產(chǎn)品,中國的整個科創(chuàng)生態(tài)到底有什么樣的優(yōu)勢?
在東方衛(wèi)視3月11日播出的274期的《這就是中國》節(jié)目中,復旦大學中國研究院院長張維為教授和復旦大學中國研究院特邀研究員汪濤老師,對DeepSeek的火爆出圈進行了深入觀察和分析。
汪濤:
我今天演講的主題是——中文在人工智能時代的優(yōu)勢。DeepSeek之所以爆火,主要并不是它技術上獲得了突破性的進展,而是其效率獲得了數(shù)量級的提升,從而使得它在相同性能的情況下,成本可以下降將近二十多倍。
不同AI模型的Token輸入/輸出價格(美元/每百萬Tokens),可以看到DeepSeek的價格遠低于其他AI模型Reddit
之所以如此,是因為研發(fā)團隊幾乎是將各種可能提升效率的技術都充分地進行了挖掘,比如說更多地采用底層編碼的語言PTX。一般來說,越是底層的編程語言,它的效率就會越高,但是編程的難度也會越大。
另外,還有適當?shù)亟档途龋热绮捎靡粋€字節(jié)的8比特浮點運算,而不是32比特,從而能成倍地減少存儲量和運算量,這在人工智能里面有一個專業(yè)的術語叫量化。
還有蒸餾的方法,同樣可以極大地減少參數(shù)的數(shù)量,除此之外還有混合專家架構(MoE)、多頭潛在注意力技術(MLA)等等。這些技術本身并不完全是DeepSeek獨創(chuàng)的,原來在美國人工智能產(chǎn)業(yè)界的專業(yè)人員都知道這些技術,但為什么DeepSeek把這些技術充分利用了呢?
今天就談一個大家比較容易理解,也非常有意思的話題:中文在人工智能時代的技術優(yōu)勢。DeepSeek充分利用了中文的優(yōu)勢,所以在它爆火之后,很多人開始關注到這個問題。
如果我們回顧一下兩百多年來的歷史,中文在現(xiàn)代科技中的作用,其實經(jīng)歷過一個變化的過程。
在中國古代的時期,中國對周邊國家在文化上有壓倒性的優(yōu)勢。其他地區(qū)對中國也有著非常仰慕的心態(tài)。但隨著中國在近代的落后,尤其是甲午戰(zhàn)爭失敗以后,導致很多中國知識階層開始反思自身。首先反思的就是我們的文化,也包括我們自己的語言文字。這種反思很快就發(fā)展到了極端,甚至有人認為漢字阻礙了中國進入現(xiàn)代科技文明。也有人認為中國應當放棄中文這種象形文字形態(tài),應該改成像拼音這樣的字母文字。
隨著以電子計算機為代表的信息技術出現(xiàn)以后,中文在計算機鍵盤輸入上存在一定的困難。因為計算機鍵盤來自英文的打字機,所以輸入英文當然是最簡單方便的。因此,過去曾經(jīng)認為中文阻礙了中國進入現(xiàn)代科技文明的觀點和思潮,在信息技術時代又再一次沉渣泛起。但是, 二十世紀八十年代,中國科技界在漢字輸入上做了大量的工作,在當時被稱為叫“萬碼奔騰”。
這些漢字輸入的工作在很大程度上降低了中文電腦輸入的困難。其中比較著名和主流的有五筆字型輸入法,也叫王碼,是王永民先生發(fā)明的。那么另外一個常用的輸入法是拼音輸入法。雖然客觀上說,直到今天中文還是比英文等字母文字的鍵盤輸入稍微麻煩那么一點點。但是這些中文輸入法,在很大程度上,已經(jīng)有效解決了中文在計算機上的輸入問題。在五筆字型輸入法的基礎上,充分采用詞組輸入以后,它的輸入效率甚至還可以超過英文的輸入。
到了人工智能時代,這個情況發(fā)生了很大的逆轉(zhuǎn),為什么中文在人工智能中存在技術優(yōu)勢呢?主要有以下這些原因:
首先,漢字非常規(guī)整,或者說非常整齊。無論是書寫的大小尺寸還是發(fā)音的長短尺寸,都是一樣的,非常整齊。這種規(guī)整對于計算機的處理而言,是非常方便的。比如要進行語音識別,中文每個字的發(fā)音都是聲母加韻母,發(fā)音的長度一樣,這樣就會相對比較容易區(qū)分出一句話中,每一個字的發(fā)音。
相比之下,英文單詞的長度,從一個字母到十幾個字母的都有,這樣的字母文字,每個單詞它發(fā)音的長度可能都是不一樣的。像英文里面的“祝賀”,是“Congratulations”,這就有15個字母。我們可能會好奇,那最長的英文單詞會有多少個字母呢?如果我們到網(wǎng)上去搜索的話,可能會發(fā)現(xiàn)很多不一樣的答案。
還有一個問題是很多英文的句子,它的發(fā)音會有連讀的情況,比如說"what’s your name",那么這就更加難以區(qū)分出每個單詞。雖然現(xiàn)在這些問題在人工智能的語音識別中都已經(jīng)解決了,但是它解決的技術難度,確實要比中文困難很多,需要更大的運算量,而且?guī)缀跛械淖帜肝淖侄即嬖谶@個問題。
第二,漢字的信息密度一般比字母文字要高,這體現(xiàn)在很多方面。漢字是一個表意文字,內(nèi)涵很豐富,可以用詞組、成語等很少的漢字表達相當豐富的含義。尤其像文言文,它的信息密度就更高了。對于人工智能來說,最終它體現(xiàn)的是,相同含義的一段語言或文字,在計算機中需要有多少存儲量和計算量。一般來說,中文的存儲量和計算量都是最少的。如果我們對比一下相同內(nèi)容的中英文,中文一般頁數(shù)或者篇幅是最少的。
但我們要注意,這并不是完全絕對的,因為英文也有自身的優(yōu)點,比如說它相對比較嚴謹,所以比較嚴謹?shù)囊恍┱撐幕蚍晌臅锩?,英文的信息密度與中文的差異就沒有那么大了。但是由于絕大多數(shù)情況下,中文的信息密度的確是比較高的,所以在人工智能的訓練中,相同內(nèi)容的情況下,中文訓練的存儲量和計算量就會比較少。這是中文效率優(yōu)勢的第二個體現(xiàn)。
第三,是中文的穩(wěn)定性。漢字是相對比較穩(wěn)定的一種語言,我們今天使用的漢字與幾千年前的甲骨文其實挺接近的。對于新出現(xiàn)的事物,漢字是通過常用的一些字去建立新的詞組從而適應。并且,這樣的詞組天然地會存在有規(guī)律的分類特性,比如機器的“機”,可以組成拖拉機、播種機、飛機、紡織機、發(fā)動機、蒸汽機、計算機,如此之多的機器漢字都可以用“機”這個形成詞組來表達。
漢字的穩(wěn)定性對人工智能帶來的好處是訓練參數(shù)可以更少,有效的重復訓練可以更多,那么準確性就會更高。
相比之下,英文每年都會增加大量的新詞,常用的單詞都可能會發(fā)生變化。當然我們提到中文在人工智能時代的技術優(yōu)勢,并不是要把它過度地拔高,只是從以上不同技術時代,中文技術優(yōu)劣勢的變化過程中,希望我們能更客觀地看待我們中國自己的文化。在進入人工智能時代,我們更應該發(fā)揮中文的優(yōu)勢,使得中國在人工智能時代可以獲得更快的發(fā)展,并且有更好的經(jīng)濟效益。
從我們長久以來對自己語言的態(tài)度變化中,可以獲得一些啟示:那就是如何用科學的態(tài)度去看待自己的文化。所謂利弊或優(yōu)劣,它永遠是相對特定的要求來說的。我們不能因為遇到了某種劣勢就簡單地去否定自己的文化,也不能遇到優(yōu)勢就自我膨脹。
科學的態(tài)度就是實事求是,如果它是劣勢,我們就應該想辦法改進,去消除或者減少這種劣勢。如果是優(yōu)勢,我們就應該想辦法去充分地開發(fā)利用它。因為即使是潛在的優(yōu)勢,如果不去充分地開發(fā)利用,它也不會自動地體現(xiàn)出來。謝謝大家。
-
本文僅代表作者個人觀點。
- 責任編輯: 鄭樂歡 
-
5%恐懼癥:美國對華半導體301調(diào)查真正的“故事背景”
2025-03-16 08:40 心智觀察所 -
這一技術僅五個國家掌握!我國刷新紀錄
2025-03-14 09:34 科技前沿 -
我國在三維世界造出二維金屬材料
2025-03-13 10:16 科技前沿 -
-
中國下一代“人造太陽”關鍵系統(tǒng)驗收
2025-03-10 18:55 能源戰(zhàn)略 -
大圓柱電池產(chǎn)業(yè)化再加速,云山動力一期量產(chǎn)示范線正式量產(chǎn)
2025-03-10 14:29 -
《紐約時報》急問為什么小米可以造電動車,蘋果卻不能?
2025-03-10 08:06 心智觀察所 -
全球首個!我國團隊成功繪制
2025-03-08 21:44 -
特斯拉FSD入華,深度回顧中美智駕競爭的關鍵變量
2025-03-08 09:30 心智觀察所 -
“下一個顛覆者,也可能來自中國”
2025-03-07 21:41 人工智能 -
被90后女生王虹證明的掛谷猜想究竟是什么?
2025-03-07 08:21 -
教育部部長:DeepSeek和機器人是教育重大機遇
2025-03-05 11:34 2025兩會 -
政府工作報告:培育生物制造、量子科技、具身智能、6G等未來產(chǎn)業(yè)
2025-03-05 09:38 2025兩會 -
用不用DeepSeek?婁勤儉:我是計算機專業(yè),我對人工智能有偏愛
2025-03-04 15:16 2025兩會 -
打破紀錄、最高水準!中國成功研制“祖沖之三號”量子計算原型機
2025-03-04 07:13 科技前沿 -
2030年中國斜爆轟飛機真能一小時到全球?專家發(fā)聲
2025-03-03 17:53 航空航天 -
若前方無路,便踏出一條路:中國數(shù)據(jù)庫產(chǎn)業(yè)迎來“哪吒時刻”
2025-03-03 08:02 心智觀察所 -
獨家對話|蘋果在中國的發(fā)展會繼續(xù)承受壓力
2025-03-01 09:23 心智觀察所 -
“中國又一個DeepSeek時刻?”
2025-02-28 22:27 人工智能 -
“即使我們對手的產(chǎn)品免費,我們還是比他們便宜”
2025-02-28 14:06 心智觀察所
相關推薦 -
最新聞 Hot
-
政策突轉(zhuǎn),特朗普中東行大撒先進AI芯片
-
跟著特朗普去中東推銷星鏈,馬斯克賺大發(fā)了?
-
美國特務們的“噩夢”…
-
“好萊塢都是騙人的,真后悔…”
-
歐盟:中美邁出正確一步,但…
-
“英美貿(mào)易協(xié)議這項‘毒丸’條款,中方狠批”
-
眼瞅著中美談成了,日本心里急啊…
-
日本:民間飛機別在釣魚島飛了,不要“刺激中國”
-
特朗普宣布解除對敘利亞制裁:祝好運
-
“不夠啊,巴西還是比美國有優(yōu)勢”
-
特朗普喊話鮑威爾:像歐洲、中國那樣降息
-
被戳痛點,印方火速打臉特朗普
-
普京:烏克蘭像抓狗一樣在街頭抓人
-
印巴相互驅(qū)逐一名外交官
-
百萬粉絲網(wǎng)紅對5歲女孩開黃腔,已被封禁
-
法國知名影星德帕迪約被判犯性侵罪
-