-
專訪《生成式人工智能》作者丁磊:中國大模型廠商趕超美國,關鍵在這里
-
呂棟lvdong@guancha.cn
最后更新: 2024-05-08 23:15:24觀察者網(wǎng):您在新書《生成式人工智能》中提到,Transformer與ChatGPT模型的出現(xiàn)密切相關,已成為深度學習最亮眼的成果之一,但很多人不明白什么是Transformer,為什么Transformer這么重要?除了Transformer,催生ChatGPT這類大模型的關鍵技術還有哪些?
丁磊:提到Transformer,大家肯定首先想到的就是“transform”這個詞,也就是“轉換”的意思。而顧名思義,Transformer也就是“轉換器”的意思。為什么一個技術模型要叫“轉換器”呢?其實這也正是Transformer的核心,也就是它能實現(xiàn)的功能——從序列到序列。
序列到序列模型(sequence to sequence)是在2014年提出的。所謂序列,指的是文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)等一系列具有連續(xù)關系的數(shù)據(jù)。在序列到序列模型中,只要能編碼成序列,輸入和輸出的可以是任何形式的內容。而序列編碼形式非常廣泛,我們日常做的大部分工作都可以編碼成序列,因此這種模型可以解決很多問題。
2017年出現(xiàn)的Transformer模型,在序列到序列模型基礎上有兩大提升,分別是采用多頭注意力機制和引入位置編碼機制,能夠識別更復雜的語言情況,從而能夠處理更為復雜的任務。在Transformer模型中,能輸出或生成的內容更加廣泛,包括文本、圖像、語音、視頻以及更廣義的內容,例如它可以生成報告、策劃方案、代碼以及程序等,是通用型的模型,可以生成任何我們需要的內容。目前國內外的大廠,都在基于Transformer技術推出自己的模型。
而且Transformer模型底層是開源的,每個人都可以利用Transformer技術,然后就是看誰可以設計出更加精巧的模型結構?,F(xiàn)在ChatGPT是基于GPT模型的,未來可能有更新的GPT模型結構,我們可以去改進它。也就是說,首先我們能改變模型結構,其次我們有沒有更多更好的數(shù)據(jù)去訓練模型,第三就是如何去訓練一個類似ChatGPT的模型,這也是很有講究的。
這三點也可以這么理解,就像教育小孩一樣,首先要有一個類似人類大腦的框架在那里,也就是模型的結構;其次是訓練模型的數(shù)據(jù),相當于給小孩看什么樣的教材、講什么樣的課程;第三是如何培養(yǎng)孩子,也就訓練的方法。這三點,決定了我們能訓練出什么樣的模型。
ChatGPT(資料圖)
觀察者網(wǎng):現(xiàn)在很多互聯(lián)網(wǎng)大廠在宣傳自己模型的時候,更喜歡突出千億甚至萬億的參數(shù)規(guī)模,這導致行業(yè)在模型參數(shù)上展開“軍備競賽”,業(yè)界也似乎秉持著“模型越大越好”的觀點,您如何評價這種觀點?我們該如何認識一個大模型的水平?
丁磊:大模型或模型大只是單一評價維度,大公司喜歡突出參數(shù)規(guī)模,是因為他們可以調動的資源更多,比如在算力、數(shù)據(jù)等層面,他們更有優(yōu)勢,所以他們更偏向突出模型參數(shù)規(guī)模的優(yōu)勢。但是從客觀角度來說,我覺得模型的“深度”更重要。
什么叫深度?是指模型在某一領域解決問題的能力更強,比如解決數(shù)學問題的能力更突出,或者在具體行業(yè)應用中,能把某一行業(yè)的問題解決的更專業(yè),這就叫模型更深。如果一個模型只是夠大,并不能解決相應的業(yè)務問題,或者是只能解決部分問題,給不出完全正確的解決方案,在很多情況下就會失去用處。因此,除了關注參數(shù)規(guī)模之外,還要看重模型的深度。
觀察者網(wǎng):能否這樣理解,大模型的“大”代表的是通用性,如果中小企業(yè)沒有能力去煉大模型的話,可以基于大廠研發(fā)的大模型,去做更加專用的行業(yè)模型來服務自身的業(yè)務?
丁磊:大部分的中小企業(yè)并不會去參與大模型的競賽,相反他們會基于開源的大模型去研發(fā),甚至ChatGPT也都支持在線的訓練和迭代。也就是說,這些中小企業(yè)會利用一些開源的大模型,或者在線可以訓練迭代的大模型,去解決他們業(yè)務場景的問題,來構建相應的“深模型”,這也是大部分中小企業(yè)應該走的路。
觀察者網(wǎng):現(xiàn)在布局大模型的大多都是互聯(lián)網(wǎng)企業(yè),像國內的阿里、百度、騰訊等,以及美國的微軟和谷歌,互聯(lián)網(wǎng)企業(yè)在做大模型方面有哪些獨特的優(yōu)勢?
丁磊:互聯(lián)網(wǎng)大廠在數(shù)據(jù)積累方面肯定更有優(yōu)勢,但我認為開源還是會成為整個行業(yè)的趨勢,現(xiàn)在國內外都有開源的大模型,使用的數(shù)據(jù)大多也都是互聯(lián)網(wǎng)上公開的,像OpenAI訓練ChatGPT使用的數(shù)據(jù),大多也都是互聯(lián)網(wǎng)上可以公開獲得的。大公司獲取數(shù)據(jù)的速度可能會更快,獲得體量也會更大,但這并不意味著互聯(lián)網(wǎng)巨頭在大模型領域有絕對的壟斷優(yōu)勢。我們之前分析過,實際上訓練ChatGPT這種大模型,實力雄厚的創(chuàng)業(yè)公司或者一些中型公司,也都有能力來做這方面的事,不一定只有大公司才能做。
觀察者網(wǎng):中美在AI領域的競爭最引人關注。馬斯克不久前曾提到,中美在AI方面的差距大約在十二個月左右。而國內一些廠商稱自己的大模型部分能力已超越ChatGPT,并且很快將整體趕超ChatGPT。您如何看待中美在AI方面的差距,國內廠商能否迅速趕超美國企業(yè)?
丁磊:我覺得與其對比中美,不如對比訓練模型這件事跟互聯(lián)網(wǎng)思維模式的差別。各國企業(yè)其實沒有本質差別,都可以做訓練模型這件事,但誰能最終做出來,就需要一種新的思維方式。打個比方,包括谷歌在內的互聯(lián)網(wǎng)公司研發(fā)產(chǎn)品,采用的是“養(yǎng)雞模式”,公司會將“養(yǎng)雞”拆成不同的細分任務,多部門人員各自負責具體業(yè)務。
而訓練GPT模型是“養(yǎng)娃模式”,它反而不需要那么多老師、廚師,核心人物只要少數(shù)。也就是說,它很難拆分成完全獨立的任務,必須有固定父母站在全局角度,親自教授培養(yǎng)孩子。所以在這種模式下,谷歌沒有最早做出產(chǎn)品的原因很簡單,現(xiàn)有體系很難在AI領域取得里程碑式的成功。訓練GPT模型本質是一個很難拆解的事,需要公司領導層在技術、業(yè)務,甚至資本層都是專家。
另一個簡單的例子就是,美國AI繪畫工具Midjourney,是由一家獨立研究實驗室開發(fā)出來的。包括創(chuàng)始人大衛(wèi)·霍爾茲在內僅有11個人,除了他和財務、法務,核心只有8位研發(fā)人員。我也曾在IBM沃森研究中心有過一段工作經(jīng)歷,IBM的沃森人工智能也曾陷入這種困境——有太多的人參與人工智能訓練,資源太多、研發(fā)不聚焦,造成項目沒有持續(xù)取得成績。
實際上,美國真正專注通用人工智能研發(fā)的知名公司也就兩家——OpenAI以及谷歌母公司Alphabet下設的人工智能實驗室DeepMind。就目前披露的信息看,OpenAI創(chuàng)始人奧特曼個人能力非常強,不僅懂技術,也懂商業(yè)運作,OpenAI在運營過程中也鮮少受股東制約。OpenAI是長在美國硅谷重視工程師地位的文化土壤里,有著強大的“工程師文化基因”,簡單說就是工程師可以主導研發(fā),擁有更大自主性,發(fā)揮創(chuàng)造性的空間更大。
但OpenAI并不能代表美國的互聯(lián)網(wǎng)公司。所以我認為,互聯(lián)網(wǎng)公司在訓練大模型這件事上,并不具有天賦基因。它們可以去學,也可以去適應,但它本身并沒有這個基因。他們適合做一件事情,就是像“養(yǎng)雞”這樣的事,或者說更適合做大規(guī)模的生產(chǎn),但訓練模型更像是“養(yǎng)娃”,你不能把這個問題拆分,ChatGPT擁有1750億個參數(shù),我們沒辦法把它拆分成100份1000份,讓不同團隊并行去做,根本做不到。
觀察者網(wǎng):有沒有可能判斷一下,中美企業(yè)在大模型領域的差距,以及追趕的時間表?
丁磊:這個沒辦法給出明確的時間表,因為現(xiàn)在主要也就OpenAI一家的大模型在各方面都比較領先。但是我認為,任何一家互聯(lián)網(wǎng)企業(yè),如果按照原來的運行模式,很難做出像ChatGPT這樣的大模型,無論中國還是美國企業(yè)都一樣。
觀察者網(wǎng):現(xiàn)在人們容易討論的問題是,為什么ChatGPT會率先誕生在美國,而中國企業(yè)涌入大模型更像是跟風,您怎么看待這種問題?
丁磊:我在硅谷工作多年,非常了解為什么硅谷會出現(xiàn)OpenAI以及奧特曼這樣的人物——是硅谷的“工程師文化基因”造就了他們。OpenAI其實也是一個異類公司,而硅谷擁有技術驅動的傳統(tǒng)文化,可以去忽視短期利益去做長期投入。OpenAI以及奧特曼,本身也有較強的資金基礎,使他們可以進行大規(guī)模投入,而大部分公司并不具備做這種事情的先決條件。
觀察者網(wǎng):我們都知道,人工智能有三駕馬車:算力,算法,數(shù)據(jù)。在生成式AI概念中,這三駕馬車的重要性有大小之分嗎?眼下英偉達的GPU成為稀缺品,國內AIGC的發(fā)展會因為算力因素受限嗎?
丁磊:數(shù)據(jù)、算法和算力都很重要。但是我認為,數(shù)據(jù)現(xiàn)在比較容易獲得,很多數(shù)據(jù)都是互聯(lián)網(wǎng)上的數(shù)據(jù),可以很容易獲得。最核心的還是算法,這關系到模型訓練的效果。
- 責任編輯: 呂棟 
-
昔日頂流基金經(jīng)理蔡嵩松行賄、受賄案已當庭宣判
2024-05-08 22:54 -
王炸芯片,難再成蘋果救星
2024-05-08 18:18 觀網(wǎng)財經(jīng)-科創(chuàng) -
ST陽光:控股股東涉嫌內幕交易被證監(jiān)會擬罰款2.32億元
2024-05-07 20:57 -
華為蘋果同日對決,背后還有中韓面板之爭
2024-05-07 17:23 觀網(wǎng)財經(jīng)-科創(chuàng) -
歷史性一幕!iPhone在華市場份額跌出前五
2024-05-07 11:13 觀網(wǎng)財經(jīng)-科創(chuàng) -
45億加碼“五五購物節(jié)”,拼多多助力上?!捌础背鼍?/a>
2024-05-06 19:32 -
美國?Tiktok法案的起草人,引火燒身了
2024-05-06 18:47 觀網(wǎng)財經(jīng)-金融 -
舒適賽道紅利釋放,紅豆股份品牌轉型出成效
2024-05-06 13:33 -
“五一”近3億人次出游,較2019年同期增長28.2%
2024-05-06 12:16 觀察者頭條 -
巴菲特股東大會要點來了!回應減持蘋果、巨額現(xiàn)金儲備等
2024-05-05 08:28 -
武廣高鐵、滬杭客專等4條高鐵線漲價,漲幅近20%
2024-05-04 14:13 高鐵世紀 -
深圳將取消福田、南山之外區(qū)域住房限購?深圳住建局回應
2024-05-04 10:27 觀網(wǎng)財經(jīng)-房產(chǎn) -
庫克涉華最新發(fā)聲
2024-05-04 10:14 跨國企業(yè)在中國 -
20張營業(yè)執(zhí)照只有3家實存?央媒:問題在下頭,根子在上頭
2024-05-03 11:21 基層治理 -
上海推出商品住房“以舊換新”活動
2024-05-03 09:39 觀網(wǎng)財經(jīng)-房產(chǎn) -
中俄東線天然氣管道最新進展
2024-05-03 09:30 國企備忘錄 -
31省份“一季報”:蘇魯浙增速超6%,山西總量下滑
2024-05-02 21:39 宏觀經(jīng)濟 -
美聯(lián)儲維持利率不變,納指兩連跌星巴克重挫
2024-05-02 07:42 觀網(wǎng)財經(jīng)-海外 -
南京公積金新政:包括宣城、馬鞍山在內的南京都市圈9城互認互貸
2024-05-01 19:50 觀網(wǎng)財經(jīng)-房產(chǎn) -
美國當前經(jīng)濟數(shù)據(jù)中,也許藏著高官接連訪華的答案
2024-05-01 09:24
相關推薦 -
-
最新聞 Hot
-
印度稱“不想升級”,巴方想“就此打住”
-
英法德波領導人訪問基輔,將與澤連斯基共同討論?;饐栴}
-
印軍否認S-400防空系統(tǒng)被摧毀
-
印度前高官:勸巴基斯坦,中國的話好使
-
空中爆炸!巴軍通報7日空戰(zhàn)細節(jié),含擊落“陣風”錄音
-
要松口了?印官員稱將“適時”公開
-
印度32座機場暫停對所有民用航班運營
-
英官員承認:美英貿易協(xié)議這條款,沖中國來的
-
巴外長:印度讓巴基斯坦別無選擇
-
巴基斯坦稱使用“梟龍”戰(zhàn)機擊毀印度S-400防空系統(tǒng)
-
搞錢色交易、貪欲膨脹,深圳市政協(xié)原副主席王幼鵬被“雙開”
-
“跟巴西建這條鐵路,中國非常感興趣”
-
果然,英國被用來“立規(guī)矩”了
-
印度官員:印軍正做出回應
-
印方:一高級官員在巴方炮擊中身亡
-
巴基斯坦發(fā)起“銅墻鐵壁”行動:已打擊20多處印度軍事設施
-