-
劉聰:代表人工智能第三次浪潮的快速發(fā)展,這是中國人的原創(chuàng)
最后更新: 2024-07-26 16:16:00與我們競爭的是國際上的語音識別王者賽輪思,前身為被微軟收購的Nuance。在車企的交互測試里,我們的系統(tǒng)效果全面領(lǐng)先賽輪思。同時,由于中國過去幾年在汽車出海上表現(xiàn)優(yōu)秀,本項目也經(jīng)歷了多語種的交互效果評測,國內(nèi)現(xiàn)在出海的汽車,其車載語音交互系統(tǒng)絕大部分選擇的是訊飛的多語種智能語音交互系統(tǒng)。
華為的評測在當時主要是考慮面向歐洲的手機出海,所以它的評測項目主要是手機的語音助手。我們的主要對手就不再是賽輪思,而是谷歌;華為采取的同樣是端到端產(chǎn)品層面的測試。當時評測了英語、法語、西班牙語、意大利語等語種,訊飛也都全面超過谷歌,最終由我們提供了整個系統(tǒng)。所以,在去年全球1024開發(fā)者節(jié)大會上,華為副董事長、輪值董事長徐直軍提到目前華為公司在全球所有使用的智能終端的語音技術(shù),都是來自于科大訊飛,而且不僅僅是中文。
這些企業(yè)在產(chǎn)品層面的遴選都非常嚴格,既要求效果又要求效率,還有可靠性。他們卻不約而同地選擇訊飛,充分證明了我們站在客戶視角做出的端到端效果和體驗很優(yōu)秀。
心智觀察所:我看到有提出多語種技術(shù)存在一個卡脖子的問題,請問這個問題的由來是硬件層面還是算法層面?然后,訊飛提出了一種多語種統(tǒng)一音素韻律體系,并提到一個基于語族分組的共享建模技術(shù),請問這些技術(shù)又是一個怎樣的情況?
劉聰:某種程度上,這次的項目獲獎與卡脖子非常相關(guān),許多國產(chǎn)化項目其實都是在這個背景之下催生的。
卡脖子既包含軟件和硬件。硬件在剛才已經(jīng)講述了一些,例如從2019年斷供人工智能的關(guān)鍵芯片,后來愈演愈烈;2022年10月,美國再一次極限施壓,升級對華半導體管制,導致我們基本上無法購買任何美國生產(chǎn)的硬件。另外在芯片層面,隨著大模型的崛起,美國也進一步加大對硬件層面卡脖子的力度。
在軟件層面,美國直接掐斷了多語種語音技術(shù)的支持,很多語種技術(shù)服務(wù)無法使用,使得我國每年龐大的手機、家電出口受限。當然,訊飛的多語種技術(shù)也因此受到了很大的影響,訊飛在中文語音領(lǐng)域全球領(lǐng)先,在數(shù)據(jù)方面有多年儲備,但是我們當時關(guān)注的60多個語種不可能都像中文這樣去投入:一是因為多語種數(shù)據(jù)資源缺乏,很多語種沒有那么多數(shù)據(jù);二是即使我們能夠獲得一些小語種的數(shù)據(jù),但是每個語種的知識及語言專家都很難找,知識匱乏。
為了應(yīng)對小語種智能語音系統(tǒng)構(gòu)建所面臨的知識匱乏、訓練數(shù)據(jù)稀缺等難題,除了前面提到的語音屬性解耦共性技術(shù)在多語種領(lǐng)域有一些應(yīng)用之外,我們在多語種共享建模關(guān)鍵技術(shù)上也實現(xiàn)了突破:設(shè)計了全新的多語種通用音素體系RGP(Rough Global Phone)和基本語言單元,結(jié)合字音轉(zhuǎn)換自動學習和人類語言專家的校驗反饋,讓不論哪個語種的詞語都能使用這套共性的音素體系,實現(xiàn)了多語種統(tǒng)一音素韻律體系的構(gòu)建;
再通過基于元學習的多語種預訓練和基于語族分組的多語種共享建?!ㄋ椎卣f,就是將不同的小語種進行分類,找到同類語種的共同規(guī)律,進行分析建模和訓練?;谝陨霞夹g(shù)創(chuàng)新,我們使需要的小語種數(shù)據(jù)數(shù)量大大降低,最終也顯著提升了小語種語音系統(tǒng)性能。
心智觀察所:關(guān)于這次獲獎,您剛才也提到和中科大的合作,從校企合作的這個角度來說,攻克核心技術(shù),促進復合人才發(fā)展,推動科技成果轉(zhuǎn)化,請問從您的角度來說,您覺得還有哪些工作是可以總結(jié)或是需要繼續(xù)完善,繼續(xù)去進一步做?
劉聰:將本次獲獎算在內(nèi),訊飛一共三次獲得國家科技進步獎。每次獎項都凝結(jié)了十年左右的積累和突破,我們自稱“十年磨一劍”。
訊飛從成立之初,就非常關(guān)注產(chǎn)學研。當年,訊飛創(chuàng)始人、董事長劉慶峰等六名在校大學生加上十二名員工,一共十八個人創(chuàng)業(yè)成立科大訊飛,我們也是第一家在校大學生創(chuàng)業(yè)之后成功上市的企業(yè)。如此看到,訊飛源頭的核心技術(shù)來自中科大,特別是王仁華老師建立起的我國最早的人機語音通訊實驗室。除了中科大之外,訊飛也整合了源頭核心技術(shù)資源,包括語言所、聲學所以及后來清華大學等,將國內(nèi)在語音方面最有優(yōu)勢的產(chǎn)學研資源全都集中。此后,我們也不斷基于研究方向和許多外部實驗室合作。故此,我們從創(chuàng)立之初到現(xiàn)在一直高度重視產(chǎn)學研。
我們現(xiàn)在產(chǎn)學研模式與成立初期有一些變化。早期我們的產(chǎn)業(yè)模式更多是一個橫向項目,這意味著每當企業(yè)有一個任務(wù)需要高校的創(chuàng)新能力時,就需要高校從原始創(chuàng)新的角度去解決這樣的任務(wù)。但是,我們現(xiàn)在的問題大多源于產(chǎn)業(yè)里很復雜的一些問題,解決它們也需要一個比較復雜的產(chǎn)業(yè)鏈。所以雖然橫向項目仍然存在,但現(xiàn)在很多的組織方式變?yōu)楹透咝9餐陥髧业捻椖?。企業(yè)的問題中可能會解析出一些不同的技術(shù)難題,有的需要原始創(chuàng)新、適合高校去研究;有些需要工程能力或系統(tǒng)性創(chuàng)新能力,適合企業(yè)去完成,因此現(xiàn)在校企之間變成了一個更大的創(chuàng)新聯(lián)合體概念。
多年以來,我們一直堅持產(chǎn)學研,但伴隨著科技創(chuàng)新在不同時代所要解決的問題不同,企業(yè)、高校在其中扮演的角色也一直在變化。
那么,我們訊飛產(chǎn)學研的邊界在哪里?從訊飛這些年的經(jīng)驗來講,我們的業(yè)務(wù)部門在做“今天的事”——在產(chǎn)品研發(fā)過程中,我們不可能在技術(shù)仍然是“期貨”狀態(tài)時就馬上推出產(chǎn)品,產(chǎn)品推出時技術(shù)應(yīng)該已經(jīng)成熟,使得用戶在使用體驗之后,技術(shù)還能夠持續(xù)迭代;
訊飛研究院則是在研究“明天的事”。研究院會進行技術(shù)孵化,例如做出一個技術(shù)demo給大家展示,雖然還沒有進入產(chǎn)品和應(yīng)用,但是有了技術(shù)雛形。此后結(jié)合應(yīng)用場景、產(chǎn)品的具體需求,這些技術(shù)會繼續(xù)打磨迭代,直至真正應(yīng)用;
高校所考慮的甚至更加長遠一點,想的是“后天的事”。有些高校里的技術(shù)可能仍然存在于論文之內(nèi),離工程化還有一定的距離,但卻代表了下一代,甚至是下下一代產(chǎn)品的技術(shù)可能與方向。
所以,我們需要分配好我們的產(chǎn)學研資源,在企業(yè)我們強調(diào)技術(shù)的應(yīng)用落地,在研究院里完成技術(shù)的預研的孵化,在學校里探索布局下一代前瞻技術(shù)。
訊飛研究院上一任院長胡國平曾經(jīng)提出過一個理念:臺階的重要性,意思是對于企業(yè)來說,如果等一個技術(shù)完全成熟之后再去布局,可能就會為時已晚;所以在技術(shù)不斷進步的前提下,上一個臺階技術(shù)相對成熟,我們就要預估技術(shù)進步的未來趨勢,以及能夠達到的具體程度,提前布局下一個臺階里更高難度的技術(shù)和更廣闊的應(yīng)用場景。
打個比方,我們2010年推出了訊飛輸入法,開啟語音輸入的時代。但大家使用語音輸入法的時候一般是自己思考一下再說出來,這種場景下的語音識別難度顯然比不上兩人聊天、多人開會。雖然當時在深度學習技術(shù)的加持下,語音識別水平有了顯著提升,但應(yīng)用到會議場景準確率就會驟降,因此2011、2012年我們迭代訊飛輸入法的時候開始思考,如何讓語音識別技術(shù)拓展到訪談、會議等場景里應(yīng)用。
2015年時,訊飛輸入法效果已經(jīng)非常不錯,那一年我們在年末的發(fā)布會上又推出了語音轉(zhuǎn)寫技術(shù)的成果——訊飛聽見,全程將發(fā)布會上劉慶峰董事長的發(fā)言進行精準的轉(zhuǎn)寫,實現(xiàn)了技術(shù)突破。
此后,我們又逐漸迭代技術(shù),并且基于此推出了錄音筆等智能硬件,訊飛聽見也服務(wù)了越來越多的重要大會,并且在語音轉(zhuǎn)寫之外還實現(xiàn)了翻譯等功能。今年,訊飛聽見已經(jīng)服務(wù)全國政協(xié)兩會六周年,全面覆蓋人大政協(xié)各個駐地會議三周年,訊飛聽見智慧簡報系統(tǒng)助力了兩會期間駐地的記錄服務(wù)工作,同時還幫助數(shù)十家媒體的多位記者采訪記錄、高效出稿。
我們今天之所以能夠達到這種水平,離不開之前所設(shè)置的“臺階”。所以要基于技術(shù)發(fā)展的速度,合理地預判趨勢來提前做產(chǎn)業(yè)轉(zhuǎn)化的布局。
本文系觀察者網(wǎng)獨家稿件,文章內(nèi)容純屬作者個人觀點,不代表平臺觀點,未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
-
本文僅代表作者個人觀點。
- 責任編輯: 武守哲 
-
歐盟港停滿中國車?“產(chǎn)能過?!辈槐冲?/a>
2024-07-26 14:51 心智觀察所視頻 -
統(tǒng)一生態(tài):鴻蒙如何踩著諾基亞和三星的“尸體”前進
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍屏網(wǎng)災”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認知局限!我國科學家研發(fā)出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補貼調(diào)查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統(tǒng)與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現(xiàn)地磁暴過程”
2024-07-23 21:54 天文 -
我國科學家在月壤中首次發(fā)現(xiàn)分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級液氫液氧發(fā)動機長程高模試驗成功
2024-07-23 10:17 航空航天 -
國內(nèi)最大、世界第二!可用于航空航天等領(lǐng)域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
科技部通報國家重點研發(fā)計劃有關(guān)項目4個抄襲問題和1個評審請托問題
2024-07-20 14:52 學術(shù)造假 -
意義重大!中國電力體系的壯闊藍圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團隊研發(fā)出太陽能動力微型無人機
2024-07-19 07:22 科技前沿 -
重大突破!我國科學家發(fā)現(xiàn)新型高溫超導體
2024-07-18 20:45 科技前沿 -
我國科學家為“尼安德特人被現(xiàn)代人所同化”提供有力遺傳學證據(jù)
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰(zhàn)而勝
2024-07-18 10:27 華為 -
手機直連衛(wèi)星,中國星鏈何時能登場?
2024-07-18 08:33 -
“設(shè)計速度400公里每小時,試驗臺速度達600公里每小時”
2024-07-18 07:13 中國精造
相關(guān)推薦 -
卡塔爾送大禮引爭議,特朗普:免費的也罵? 評論 160何立峰:中美達成重要共識 評論 306“中國猛龍首露利爪,實戰(zhàn)證明自身價值” 評論 260印巴的“火”停了,但水呢? 評論 128最新聞 Hot
-
特朗普要“幫忙”,印度拒絕了
-
“他想在大馬士革建特朗普大廈”
-
中美日內(nèi)瓦經(jīng)貿(mào)會談聯(lián)合聲明
-
中方嚴管稀土出口,印度也“慌了”
-
“他有望在獄中贏得市長選舉”
-
石破茂再強硬表態(tài):美國,還不降
-
美方吹風會:中美都不想“脫鉤”,同意稅率下調(diào)115%
-
卡塔爾送大禮引爭議,特朗普:免費的也罵?
-
美國小企業(yè)苦苦掙扎:利潤蒸發(fā)甚至變?yōu)樨摂?shù),最糟的時刻還未到來
-
特朗普施壓后,澤連斯基表態(tài):我去土耳其等普京
-
日車企利潤暴跌超20%,“與中國競爭加劇”
-
中美會談結(jié)束后,美國股指期貨應(yīng)聲上漲
-
“特朗普夜不能寐,搞定全球問題比想象難得多”
-
靠岸中國貨船數(shù)“歸零”,美西港口官員驚到了
-
“出軌女下屬”,英國海軍一把手被免職
-
“聽加州的,否則美國最大經(jīng)濟體地位不保”
-