-
專訪中科院自動(dòng)化所所長(zhǎng)徐波:構(gòu)建紫東太初——全球首個(gè)三模態(tài)大模型,“類人智能”的大門正在打開(kāi)
最后更新: 2021-07-20 14:38:30觀察者網(wǎng):這個(gè)多模態(tài)大模型的技術(shù)水平,跟國(guó)外同行相比怎么樣?
徐波: “紫東太初”是全球首個(gè)三模態(tài)大模型。目前,全世界研究單模態(tài)大模型(圖像、文本)的人比較多,研究語(yǔ)音大模型的相對(duì)少一些。我們是少有的同時(shí)具備圖、文、音研究?jī)?chǔ)備和基礎(chǔ)的研究機(jī)構(gòu)。這次自動(dòng)化研究所系統(tǒng)整理收集了積累多年的多模態(tài)數(shù)據(jù)庫(kù),并把圖、文、音三個(gè)模態(tài)統(tǒng)一起來(lái),在一個(gè)共同的語(yǔ)義空間去做相互的轉(zhuǎn)換和統(tǒng)一表述,這在全球是首次。通過(guò)巧妙的構(gòu)建一個(gè)多模態(tài)大模型,我們的圖像技術(shù)、語(yǔ)音技術(shù)和文本技術(shù)都超越了現(xiàn)有最好水平。過(guò)去業(yè)界習(xí)慣用有監(jiān)督的學(xué)習(xí),而我們的技術(shù)對(duì)有標(biāo)注數(shù)據(jù)的依賴性較小,改變了人工智能訓(xùn)練需要標(biāo)注好的大數(shù)據(jù)的固有模式。
首先業(yè)界領(lǐng)先性能的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型是我們?nèi)B(tài)模型的基礎(chǔ)。比如,視覺(jué)的預(yù)訓(xùn)練模型,首次實(shí)現(xiàn)超越有監(jiān)督學(xué)習(xí)的性能,速度比其他的方法提高8倍,在語(yǔ)義分割的結(jié)果上,也超越了有監(jiān)督學(xué)習(xí)的水平。在中文預(yù)訓(xùn)練模型里面提出來(lái)任務(wù)感知和推理增強(qiáng)的模型,性能相比比GPT-3明顯提升。語(yǔ)音預(yù)訓(xùn)練模型,針對(duì)語(yǔ)音領(lǐng)域語(yǔ)種多樣、標(biāo)注成本高的問(wèn)題,實(shí)現(xiàn)了基于語(yǔ)音預(yù)訓(xùn)練的多語(yǔ)言、多任務(wù)、低資源關(guān)鍵技術(shù)的突破,使我們用很少的有標(biāo)注數(shù)據(jù)就可以實(shí)現(xiàn)語(yǔ)音識(shí)別的性能大幅度提升。
然后我們?cè)诮y(tǒng)一的語(yǔ)義空間網(wǎng)絡(luò)表達(dá)上實(shí)現(xiàn)了模態(tài)之間的高效協(xié)同和相互轉(zhuǎn)換,在多任務(wù)上取得了更卓越的性能。在跨模態(tài)檢索和圖文語(yǔ)義轉(zhuǎn)換方面,都比兩個(gè)模態(tài)具有更豐富的表達(dá)跟生成能力。語(yǔ)音加入后,使得我們的大模型可以跟人類做自然流暢的交互。這意味著,我們?nèi)斯ぶ悄芗夹g(shù)在共性的語(yǔ)義空間表征方面取得了重要進(jìn)展。
觀察者網(wǎng):AI應(yīng)用場(chǎng)景的碎片化需求,正在成為AI算法落地面臨的最大挑戰(zhàn)。而三模態(tài)大模型能夠?qū)崿F(xiàn)多模態(tài)對(duì)話,視頻播報(bào),以音生圖,以圖生音,非常有意思,未來(lái)是否有可能所有問(wèn)題都會(huì)通過(guò)統(tǒng)一的大模型來(lái)解決?
徐波:我覺(jué)得非常有可能。我們?nèi)祟愔饕袃煞N能力,一種是與生俱來(lái)的能力,到了一定的年齡,通過(guò)基本的學(xué)習(xí)就能自然的學(xué)會(huì)說(shuō)話、走路。另外一種是專業(yè)技能,如果要學(xué)會(huì)彈鋼琴、水墨畫(huà)等,仍然需要長(zhǎng)時(shí)間的專業(yè)訓(xùn)練才能實(shí)現(xiàn),因?yàn)檫@改變了人的特定知識(shí)結(jié)構(gòu)。
多模態(tài)大模型為通用人工智能的研究奠定了非常好的基座。人類基本的知識(shí)、常識(shí),看到的一些場(chǎng)景、物體,以及從物理世界看到的很多東西,都可以隱藏在這個(gè)大模型里面。比如要做語(yǔ)音識(shí)別,現(xiàn)在用很小的數(shù)據(jù)量就可以了,甚至可以逐漸做到不需要有監(jiān)督的數(shù)據(jù)學(xué)習(xí)。
預(yù)訓(xùn)練模型作為基座模型雖然不是萬(wàn)能的,但是人工智能的研究范式和產(chǎn)業(yè)范式也會(huì)出現(xiàn)一些變化。比如說(shuō),現(xiàn)在產(chǎn)業(yè)都在講算法開(kāi)源,但算法的維護(hù)成本很高,尤其是現(xiàn)在人工智能的人才很稀缺,未來(lái)人工智能領(lǐng)域開(kāi)放的可能是模型,客戶獲得大模型的接口再稍微加一點(diǎn)數(shù)據(jù)就能解決問(wèn)題,即“大模型+小數(shù)據(jù)”,這是我們未來(lái)希望看到的大模型對(duì)產(chǎn)業(yè)帶來(lái)的賦能。這個(gè)大模型技術(shù)從學(xué)術(shù)成果向產(chǎn)業(yè)轉(zhuǎn)化可能還需要一個(gè)過(guò)程,但我認(rèn)為不會(huì)太久,未來(lái)2-4年之內(nèi)這些新技術(shù)都會(huì)逐漸得到應(yīng)用。
觀察者網(wǎng):能不能具體講一下紫東太初這個(gè)多模態(tài)大模型以音聲圖、以圖生音的應(yīng)用案例?
徐波:以圖生音為例??梢圆唤?jīng)過(guò)文本,直接在一個(gè)共通語(yǔ)義空間做轉(zhuǎn)換,就是語(yǔ)義到語(yǔ)音的直接合成。以音生圖,它不是先識(shí)別語(yǔ)音,再做文本的檢索,而是直接在一個(gè)語(yǔ)義空間里面把這個(gè)聲音轉(zhuǎn)換成圖像。所以我們?yōu)槭裁凑f(shuō)這個(gè)是通用人工智能路徑的探索,就是通過(guò)圖文音三個(gè)模態(tài)固化出一個(gè)人類非常模糊但是非常有用,只是不知道人類大腦是怎么表達(dá)的一個(gè)語(yǔ)義空間的表征。
生成語(yǔ)音:一架大型飛機(jī)在天空中飛翔
輸入語(yǔ)音:一個(gè)人在滑雪板上翻轉(zhuǎn)在空中
除此之外,我們還可以給出一個(gè)多模態(tài)大模型的互動(dòng)演示,涉及到很多的語(yǔ)音識(shí)別,語(yǔ)音合成,包括對(duì)圖像的描述,中文的續(xù)寫等等,通過(guò)語(yǔ)義空間直接的轉(zhuǎn)換來(lái)完成。
這一系列的展示,是非常類人的多模態(tài)交互。它可以任意輸入語(yǔ)音、圖像或者文字,去輸出語(yǔ)音,圖像和文字的任意一種,真正實(shí)現(xiàn)三個(gè)模態(tài)之間的關(guān)聯(lián)跟協(xié)同。它們中間就是我們講的“統(tǒng)一的語(yǔ)義空間”。
這里主要表達(dá)三個(gè)觀點(diǎn),一是大數(shù)據(jù)+大模型+多模態(tài),將改變當(dāng)前單一模型與單一任務(wù)人工智能的研發(fā)模式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺(tái)技術(shù)。其次,在目前的研究當(dāng)中,有一種慣性思維是做人工智能都要用大數(shù)據(jù),而當(dāng)知識(shí)與數(shù)據(jù)混合驅(qū)動(dòng),增強(qiáng)模型的可信、可理解能力后,我相信隨著這些技術(shù)的發(fā)展,人工智能學(xué)習(xí)對(duì)有標(biāo)注的數(shù)據(jù)的依賴性會(huì)越來(lái)越小。
此外,國(guó)產(chǎn)化通用人工智能具有很高的技術(shù)門檻,需要大量的資金與數(shù)據(jù)的支撐,將使得人工智能的研究規(guī)則發(fā)生重大變革,對(duì)我國(guó)實(shí)現(xiàn)人工智能領(lǐng)域科技創(chuàng)新,占領(lǐng)核心技術(shù)高地具有重要戰(zhàn)略意義。以圖生音,以音生圖,效果甚至出乎我們自己的想象,這也帶給我們一項(xiàng)啟發(fā),讓我們對(duì)未來(lái)的人工智能又增加的無(wú)窮的想象力。所以,多模態(tài)大模型人工智能值得我們進(jìn)一步去探索,值得我們進(jìn)一步探索更巧結(jié)構(gòu)、更大規(guī)模、更強(qiáng)理解能力的模型以及相應(yīng)的評(píng)估標(biāo)準(zhǔn),也值得我們把這樣的技術(shù)跟產(chǎn)業(yè)需求更好的結(jié)合起來(lái)。
再舉一些生活化的例子。比如說(shuō),利用大模型可以實(shí)現(xiàn)歐洲杯轉(zhuǎn)播的人工智能自動(dòng)解說(shuō);在影視拍攝領(lǐng)域,可以根據(jù)劇本的文字自動(dòng)生成畫(huà)面和場(chǎng)景,供導(dǎo)演再加工;在教育領(lǐng)域可以根據(jù)語(yǔ)義內(nèi)涵,自動(dòng)生成畫(huà)面和聲音、甚至生成全新的音樂(lè)(而非在既有樂(lè)庫(kù)中選取),類似實(shí)現(xiàn)媽媽給孩子講故事等功能,讓人工智能具備初步的想象力和藝術(shù)創(chuàng)作力。其實(shí)這與人類大腦工作機(jī)制是比較類似的。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 呂棟 
-
這次冬奧會(huì),裁判可能“不是人類”
2021-07-20 13:41 世界人工智能大會(huì) -
中芯國(guó)際發(fā)35億股票激勵(lì),四大高管浮盈超1200萬(wàn)
2021-07-20 13:29 上市公司 -
農(nóng)業(yè)農(nóng)村部:生豬高利潤(rùn)階段已經(jīng)結(jié)束,不要再賭市場(chǎng)
2021-07-20 11:36 -
養(yǎng)豬龍頭企業(yè)半年預(yù)虧30億
2021-07-20 08:06 聚焦三農(nóng) -
美媒:隨著中國(guó)新規(guī),2萬(wàn)億美元赴美上市大潮宣告結(jié)束
2021-07-19 16:33 上市公司 -
發(fā)改委:大宗商品價(jià)格總體回落,比年內(nèi)高點(diǎn)下跌3%-14%
2021-07-19 16:01 金融圈 -
“繼續(xù)限制ASML與中國(guó)大陸合作,是美國(guó)安顧問(wèn)首要任務(wù)”
2021-07-19 14:23 上市公司 -
證監(jiān)會(huì)從嚴(yán)從快從重查辦16起重大典型案件,點(diǎn)名這些違規(guī)行為
2021-07-18 09:37 -
-
長(zhǎng)江存儲(chǔ):不會(huì)受紫光集團(tuán)破產(chǎn)重整司法程序的直接影響
2021-07-16 16:10 上市公司 -
央行:商業(yè)機(jī)構(gòu)推出全球性“穩(wěn)定幣”將帶來(lái)諸多風(fēng)險(xiǎn)和挑戰(zhàn)
2021-07-16 15:59 -
全國(guó)碳排放權(quán)交易在上海、武漢上線
2021-07-16 09:58 金融圈 -
證監(jiān)會(huì)發(fā)布《證券期貨違法行為行政處罰辦法》
2021-07-16 07:32 中國(guó)經(jīng)濟(jì) -
全國(guó)碳排放權(quán)交易明天開(kāi)市
2021-07-15 21:06 政策風(fēng)向標(biāo) -
智能手機(jī)業(yè)務(wù)增長(zhǎng)近4倍,紫光展銳稱5G時(shí)代必須回到中國(guó)
2021-07-15 17:03 科技前沿 -
6月新房?jī)r(jià)格環(huán)比漲幅回落,外媒:樓市政策效果顯現(xiàn)
2021-07-15 16:32 中國(guó)房市 -
商務(wù)部:將按照必要合理的原則審查影響國(guó)家安全的外商投資
2021-07-15 15:48 政策風(fēng)向標(biāo) -
-
-
新冠檢測(cè)收入下滑,華大基因二季度凈利潤(rùn)驟降超50%
2021-07-15 11:38 上市公司
相關(guān)推薦 -
星辰大海第二站,天問(wèn)二號(hào)為何選它? 評(píng)論 8印度人把抵制矛頭對(duì)準(zhǔn)了這兩國(guó) 評(píng)論 214特朗普準(zhǔn)備賣了“美國(guó)之音”總部大樓 評(píng)論 174美大使“委屈”上了:加拿大抵制美貨是侮辱 評(píng)論 69沃爾瑪準(zhǔn)備以關(guān)稅為由漲價(jià),特朗普威脅 評(píng)論 169最新聞 Hot
-
特朗普準(zhǔn)備賣了“美國(guó)之音”總部大樓
-
沃爾瑪準(zhǔn)備以關(guān)稅為由漲價(jià),特朗普威脅
-
馬克龍“搭手示強(qiáng)”,反被埃爾多安“拿捏”
-
他痛批特朗普撒謊“不值一駁”,“令美國(guó)人民蒙羞”
-
美大使“委屈”上了:加拿大抵制美貨是侮辱
-
面臨高關(guān)稅壓力,越美完成首次線下部長(zhǎng)級(jí)磋商
-
臺(tái)“邦交”危機(jī)再起?“不意外,轉(zhuǎn)向或已近尾聲”
-
“船、箱雙雙告急!兩個(gè)月后更糟了”
-
克宮:“普澤會(huì)”有可能,只要…
-
小米汽車回應(yīng)“部分SU7前保險(xiǎn)杠形變”
-
惡意傳播涉劉國(guó)梁不實(shí)信息,杜某川、湯某被處罰
-
韓船企利潤(rùn)大增,中國(guó)被撼動(dòng)?
-
美軍高官急眼:中國(guó)在拉美居然整了10個(gè),沒(méi)人管…
-
無(wú)法一一談判,特朗普放話:將被單方面加稅
-
湖南懷化舞水河近期出現(xiàn)大量死魚(yú),當(dāng)?shù)鼗貞?yīng)
-
穆迪下調(diào)美國(guó)信用評(píng)級(jí),白宮急了:這是政治決定
-