-
破壞字節(jié)AI訓(xùn)練的實(shí)習(xí)生斬獲NeurIPS最佳論文,含金量如何?
最后更新: 2024-12-05 15:42:582024年12月3日,在這個(gè)離年末僅有27天的日子里,一件AI界頗具戲劇性的事件發(fā)生在字節(jié)跳動(dòng)的一個(gè)前實(shí)習(xí)生身上。
北京大學(xué)研究生田柯宇憑借其在視覺生成領(lǐng)域的開創(chuàng)性工作獲得了NeurIPS大會(huì)最佳論文獎(jiǎng)。
在人工智能領(lǐng)域的學(xué)術(shù)殿堂中,NeurIPS的地位堪比文學(xué)界的諾貝爾獎(jiǎng)。它創(chuàng)立于1987年,這個(gè)大會(huì)見證并推動(dòng)了從簡單神經(jīng)網(wǎng)絡(luò)到現(xiàn)代深度學(xué)習(xí)的整個(gè)革命進(jìn)程。
但在頒獎(jiǎng)當(dāng)天,NeurIPS大概率會(huì)面對(duì)一張空椅子。因?yàn)楂@獎(jiǎng)?wù)咛锟掠钫媾R著字節(jié)跳動(dòng)八百萬元的訴訟,原因是“涉嫌破壞其AI訓(xùn)練系統(tǒng)”。
公司的罪人和學(xué)術(shù)的天才
田柯宇的學(xué)術(shù)履歷堪稱完美:本科畢業(yè)于北京航空航天大學(xué)軟件學(xué)院,隨后進(jìn)入北京大學(xué)攻讀研究生,師從知名學(xué)者王立威教授。
他研究的重點(diǎn)是深度學(xué)習(xí)優(yōu)化與算法,在攻讀學(xué)位期間就已在多個(gè)頂級(jí)會(huì)議發(fā)表論文,包括ICLR 2023的Spotlight論文《Spark:Designing BERT for Convolutional Networks》,是其引用量最高的論文。
2021年,田柯宇開始了在字節(jié)跳動(dòng)商業(yè)化技術(shù)部門的實(shí)習(xí)。在這里,他參與了一個(gè)雄心勃勃的項(xiàng)目:開發(fā)新一代的視覺生成模型。這個(gè)后來被命名為VAR(Visual Autoregressive Modeling)的項(xiàng)目,試圖徹底改變AI生成圖像的方式。
然而就在今年10月18日,網(wǎng)上開始流傳字節(jié)實(shí)習(xí)生“投毒”大模型的聊天截圖,給公司造成了極大損失。
這起事件的細(xì)節(jié)后續(xù)得到了更多披露。矛頭很快指向了田柯宇。
一位在GitHub上發(fā)聲的知情人士描繪了這場(chǎng)持續(xù)兩個(gè)月的"數(shù)字破壞":"在這段時(shí)間里,他系統(tǒng)性地破壞集群代碼,直接導(dǎo)致近30位同事的工作成果付諸東流,整整一個(gè)季度的心血化為烏有。所有的日志記錄和系統(tǒng)審查都指向一個(gè)不容辯駁的事實(shí)。"
10月21日,界面新聞從知情人士處了解到,字節(jié)跳動(dòng)內(nèi)部已經(jīng)調(diào)查明確此事為田姓實(shí)習(xí)生所為。
事件曝光后,這位北大高材生試圖通過社交媒體自證清白,聲稱真正的破壞者另有其人。
網(wǎng)傳的田柯宇在社群中的回應(yīng)
這種"甩鍋"行為很快就被接近字節(jié)跳動(dòng)的人士予以駁斥。一位不愿透露姓名的字節(jié)內(nèi)部人士向澎湃新聞透露了公司的處理邏輯:考慮到田柯宇的在讀博士身份,公司最初選擇了相對(duì)溫和的處理方式,將其辭退并交由校方處理。這也在字節(jié)官方的回應(yīng)中有所體現(xiàn)。
然而,事態(tài)在田柯宇的一系列反應(yīng)中急轉(zhuǎn)直下。他后續(xù)不僅多次公開否認(rèn)指控,聲稱真正的攻擊者是其他實(shí)習(xí)生,甚至報(bào)警稱自己是造謠受害者。這種拒不認(rèn)錯(cuò)、反咬一口的態(tài)度,最終耗盡了字節(jié)的耐心。"他完全沒有意識(shí)到自己的錯(cuò)誤性質(zhì)和嚴(yán)重程度,"據(jù)澎湃新聞采訪到內(nèi)部人士說,"這種行為已經(jīng)觸及公司安全管理的紅線。"最終,字節(jié)跳動(dòng)決定通過法律途徑追責(zé),以儆效尤,防止類似事件重演。
據(jù)《南方都市報(bào)》11月27日?qǐng)?bào)道,字節(jié)跳動(dòng)起訴前實(shí)習(xí)生田某某篡改代碼攻擊公司內(nèi)部模型訓(xùn)練一案,獲北京市海淀區(qū)人民法院正式受理。字節(jié)跳動(dòng)請(qǐng)求法院判令田某某賠償公司侵權(quán)損失800萬元及合理支出2萬元,并公開賠禮道歉。
這也反證了當(dāng)年字節(jié)極力否認(rèn)的網(wǎng)傳“1000萬”的損失。
但也正是在字節(jié)工作期間,田柯宇寫出了他的這篇含金量極高的獲獎(jiǎng)?wù)撐?。論文的五位作者中,有四位都是來自于字?jié),而田柯宇是第一作者。
含金量極高的獲獎(jiǎng)?wù)撐?/strong>
要理解NeurIPS最佳論文的分量,我們不妨回望2014年的一個(gè)歷史性時(shí)刻。那年《Sequence to Sequence Learning with Neural Networks》都未獲得最佳論文,僅僅進(jìn)入了oral(口頭演講》環(huán)節(jié)。
這篇出自Ilya Sutskever、Oriol Vinyals和Quoc V. Le之手的論文不僅是一項(xiàng)學(xué)術(shù)成就,更像是為人工智能劃出了一條全新的航道。
彼時(shí)還默默無聞的三位作者,如今已是AI領(lǐng)域的標(biāo)志性人物:Sutskever成為了OpenAI的聯(lián)合創(chuàng)始人,在GPT系列的開發(fā)中發(fā)揮核心作用;Vinyals在DeepMind主導(dǎo)了AlphaFold的突破;Le則在Google Brain推動(dòng)了大語言模型的革新。他們的序列到序列學(xué)習(xí)框架,為今天ChatGPT、Claude這樣的自回歸語言模型奠定了理論基石。
而當(dāng)年獲得了最佳論文的李平教授,在回國后曾任百度首席架構(gòu)師(T11)和百度研究院副院長。
NeurIPS的錄用門檻極其嚴(yán)苛,獲得這個(gè)獎(jiǎng)的難度有多高呢?
據(jù)數(shù)據(jù)統(tǒng)計(jì)顯示,以2023年為例,大會(huì)收到12,343篇投稿,最終接受率為26.1%。而能夠入選口頭報(bào)告(Oral)的論文更是鳳毛麟角,通常不到1%。
在這樣的背景下,VAR論文不僅入選Oral,還以近乎滿分的評(píng)審分?jǐn)?shù)(7,8,8,8)摘得最佳論文桂冠,其學(xué)術(shù)分量可見一斑。田柯宇北大同一實(shí)驗(yàn)室的同學(xué)對(duì)騰訊科技表示,此論文為第一篇來自中國大陸的NIPS最佳論文。
這篇名為《視覺自回歸建模:基于下一尺度預(yù)測(cè)的可擴(kuò)展圖像生成》的論文,發(fā)布于2024年5月,它代表了AI系統(tǒng)生成圖像方式的重大突破。
傳統(tǒng)的圖像生成方法就像在一頁紙上從左到右、從上到下依次填寫文字。VAR則采用了一種更接近人類直覺的方法:先勾勒出大致輪廓,再逐步添加細(xì)節(jié)。
具體來說,VAR包含兩個(gè)訓(xùn)練階段:首先通過多尺度VQVAE將圖像編碼為不同分辨率的標(biāo)記映射,然后訓(xùn)練VAR Transformer來預(yù)測(cè)更高分辨率的細(xì)節(jié)。
這篇論文提出的視覺自回歸建模(VAR)方法首次證明了GPT式模型可以在圖像生成方面超越擴(kuò)散模型——這是許多人認(rèn)為不可能的里程碑。在ImageNet 256×256基準(zhǔn)測(cè)試中,VAR將圖像質(zhì)量評(píng)估指標(biāo)FID從18.65提升至1.73,生成速度提高了20倍。
更重要的是,VAR展現(xiàn)出此前只在大型語言模型中觀察到的特征:清晰的冪律縮放和零樣本泛化能力。
用更簡單的話來說就是,系統(tǒng)隨著規(guī)模增大而可預(yù)測(cè)地變得更好,并且能夠處理它沒有專門訓(xùn)練過的任務(wù)——這是更高級(jí)AI系統(tǒng)的標(biāo)志。這些特性暗示了視覺AI可能與語言AI走向統(tǒng)一的道路。
目前,VAR的代碼已在GitHub上開源,獲得了超過4400顆星標(biāo)。
從其技術(shù)價(jià)值和實(shí)際獲得的榮譽(yù)來看,這篇論文和田柯宇的科研含金量都極高。然而,正是因此,他讓前公司字節(jié)陷入了兩難之境。
兩難的字節(jié)
對(duì)字節(jié)跳動(dòng)而言,田柯宇大模型“投毒”事件帶來的打擊遠(yuǎn)比表面看起來要嚴(yán)重。
更具戲劇性的是,當(dāng)VAR論文在NeurIPS載譽(yù)而歸時(shí),字節(jié)跳動(dòng)卻陷入了進(jìn)退維谷的尷尬境地。
作為一家渴望在AI領(lǐng)域與谷歌、OpenAI等全球巨頭競爭的中國科技公司,字節(jié)跳動(dòng)在人工智能基礎(chǔ)研究上投入了數(shù)以億計(jì)的資金。這項(xiàng)突破性研究確實(shí)誕生于字節(jié)實(shí)驗(yàn)室,但公司卻無法在學(xué)術(shù)社區(qū)大張旗鼓地宣傳這一成就——因?yàn)檎撐牡牡谝蛔髡哒还酒鹪V。
這種矛盾直指當(dāng)前公司管理的某種困境:如何對(duì)有才干的科學(xué)家分配有效的資源,給予個(gè)體更有效的表彰?在愈發(fā)龐大的字節(jié),這一命題也變得越來越難解。尤其在OpenAI、Anthropic等競爭對(duì)手普遍采取更開放研究政策的背景下,大公司很可能因?yàn)榻M織結(jié)構(gòu)的問題在吸引和保留頂尖AI人才的戰(zhàn)爭中落敗。
更令人深思的是,田柯宇能夠如此輕易地破壞訓(xùn)練系統(tǒng),暴露出字節(jié)在核心技術(shù)安全管控上的致命漏洞。這對(duì)于一家掌握著數(shù)億用戶數(shù)據(jù)、運(yùn)營著多個(gè)AI大模型的科技巨頭而言,無疑是一記響亮的警鐘。
(AI未來指北特約作者 郝博陽)
- 原標(biāo)題:榮譽(yù)與背叛:字節(jié)訴訟遇到NeurIPS最佳論文
- 責(zé)任編輯: 林鈴錦 
-
蘋果引入百度文心一言,客戶隱私或成雙方合作阻礙
2024-12-05 14:15 大公司 -
中國鎵、鍺、銻等出口管制已超一年,對(duì)美打擊效果如何?
2024-12-05 10:06 中美關(guān)系 -
俄明確認(rèn)定加密貨幣為“財(cái)產(chǎn)”,普京:可作為外匯替代方案
2024-12-05 09:58 瘋狂比特幣 -
又有大突破?OpenAI宣布未來3周連續(xù)舉行12場(chǎng)直播
2024-12-05 09:57 大公司 -
-
華為Mate70仍需搶購,“不像Mate60溢價(jià)強(qiáng)烈”
2024-12-04 18:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
“俄羅斯蔑視美國制裁,計(jì)劃使用被禁的英偉達(dá)H100制造超算”
2024-12-04 16:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
韓國股市劇烈震蕩
2024-12-04 13:35 觀網(wǎng)財(cái)經(jīng)-海外 -
美國對(duì)華新一輪芯片禁令拆解:核心是“三板斧”
2024-12-04 13:21 中美關(guān)系 -
傳《星之破曉》項(xiàng)目解散,騰訊回應(yīng)
2024-12-04 11:45 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
韓國最大工會(huì):發(fā)起無限期罷工,直至尹錫悅辭職
2024-12-04 11:40 觀網(wǎng)財(cái)經(jīng)-海外 -
騰訊:混元大模型上線文生視頻功能
2024-12-03 21:38 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
菜鳥速遞接入東方甄選,提供次日達(dá)和送貨上門服務(wù)
2024-12-03 21:35 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
歐洲 “鋰電之星”本可以不死,生路就在中國
2024-12-03 21:31 歐洲亂局 -
-
-
全球最大鉆石生產(chǎn)商戴比爾斯大幅降價(jià),人工培育鉆石概念股大漲
2024-12-03 15:28 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
蘋果被控監(jiān)視員工個(gè)人設(shè)備,嚴(yán)禁員工討論薪酬
2024-12-03 13:56 -
拿友商大模型攢個(gè)局,周鴻祎為什么敢說“世界第一”?
2024-12-03 13:10 -
相關(guān)推薦 -
中美日內(nèi)瓦經(jīng)貿(mào)會(huì)談聯(lián)合聲明 評(píng)論 465卡塔爾送大禮引爭議,特朗普:免費(fèi)的也罵? 評(píng)論 145何立峰:中美達(dá)成重要共識(shí) 評(píng)論 304“中國猛龍首露利爪,實(shí)戰(zhàn)證明自身價(jià)值” 評(píng)論 251印巴的“火”停了,但水呢? 評(píng)論 121最新聞 Hot
-
卡塔爾送大禮引爭議,特朗普:免費(fèi)的也罵?
-
美國小企業(yè)苦苦掙扎:利潤蒸發(fā)甚至變?yōu)樨?fù)數(shù),最糟的時(shí)刻還未到來
-
特朗普施壓后,澤連斯基表態(tài):我去土耳其等普京
-
日車企利潤暴跌超20%,“與中國競爭加劇”
-
中美會(huì)談結(jié)束后,美國股指期貨應(yīng)聲上漲
-
“特朗普夜不能寐,搞定全球問題比想象難得多”
-
靠岸中國貨船數(shù)“歸零”,美西港口官員驚到了
-
“出軌女下屬”,英國海軍一把手被免職
-
“聽加州的,否則美國最大經(jīng)濟(jì)體地位不保”
-
流浪53年后,蘇聯(lián)金星探測(cè)器墜落地球
-
伊朗官員:美國不真誠,一開始就設(shè)陷阱
-
?;鸬谝灰?,印巴互相指責(zé)
-
為什么選出美國籍教皇?梵蒂岡消息人士:還不是因?yàn)樘乩势?/a>
-
普京提議:15日,俄烏直接談
-
王毅分別同印巴雙方通話
-
印度稱“不想升級(jí)”,巴方想“就此打住”
快訊- 臺(tái)當(dāng)局妄議“中國共產(chǎn)黨對(duì)抗戰(zhàn)的貢獻(xiàn)”,外交部回應(yīng)
- 歐盟駐華大使稱經(jīng)貿(mào)關(guān)切被中方忽視,外交部回應(yīng)
- 商務(wù)部:中美各取消91%的加征關(guān)稅,暫停實(shí)施24%的反制關(guān)稅
- 蘋果概念直線暴漲超15%,現(xiàn)貨黃金大跌
- “中國市場(chǎng)正在成為古巴旅游業(yè)的希望”
- 中美達(dá)成關(guān)稅共識(shí),中方回應(yīng)
- 中國會(huì)否取消礦產(chǎn)出口許可要求?外交部回應(yīng)
- 土耳其旅游新機(jī)遇:中國游客能否成為突破的關(guān)鍵?
-