作者 | 三北
編輯 | 漠影
智東西6月25日報道,6月24日上午,一場科技盛會在北京召開。
全國科技大會、國家科學技術(shù)獎勵大會、兩院院士大會首次共同舉行,總書記為最高科學技術(shù)獎獲得者等頒獎。
同時,國家自然科學獎、國家技術(shù)發(fā)明獎、國家科學技術(shù)進步獎等獎項重磅揭榜。
在獲獎名單中,我們看到華為、科大訊飛、阿里云、小米等科技公司出現(xiàn),而科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目,更是斬獲國家科學技術(shù)進步獎一等獎。
這是深度學習引發(fā)全球人工智能浪潮以來,過去十年人工智能領(lǐng)域首個國家科學技術(shù)進步獎一等獎。
據(jù)悉,這一集合了多語種語音識別、多語種語音合成、多語種翻譯技術(shù)等為一體的綜合技術(shù),解決覆蓋69個語種的跨文化交流難題。
當下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是“語音+大模型”的全新震撼交互體驗。
這一次的“國獎”,則讓我們看到了中國AI的隱藏實力和“語音+大模型”的廣闊前景。
一、史上最卷科技“國獎”,神仙打架
6月24日,2023年度國家科學技術(shù)獎揭榜,被央視網(wǎng)、人民網(wǎng)等主流媒體輪番報道,占據(jù)各大科技媒體的頭版頭條。
五大科技獎項揭榜結(jié)果大致如下:
國家最高科學技術(shù)獎2人:分別授予武漢大學李德仁院士、清華大學薛其坤院士;
國家自然科學獎49項:一等獎1項,二等獎48項;
國家技術(shù)發(fā)明獎62項:一等獎8項,二等獎54項;
國家科學技術(shù)進步獎139項:特等獎3項,一等獎16項,二等獎120項;
中華人民共和國國際科學技術(shù)合作獎:10人。
本屆國獎被稱為史上最難、最嚴格的一屆評獎。
一是因為從2017年開始至今,國家科學技術(shù)獎勵數(shù)度改革,強調(diào)科技獎勵工作要堅持國家戰(zhàn)略導向,并與國家重大戰(zhàn)略需求和中長期科技發(fā)展規(guī)劃緊密結(jié)合。改革之后,提名制和寧缺毋濫是兩個重要原則:提名制,壓實了提名者對材料把關(guān)的責任,加強了對候選者的審核和誠信審核;寧缺毋濫,讓獎項評審更加嚴格,比如說2020年度國家科學技術(shù)進步獎計算機與自動控制組的一等獎就是空缺的。
二是,因2021年、2022年國家科技獎暫停,大量優(yōu)秀成果累積,競爭極其激烈。2023年受理的通用項目總數(shù)為1261項,僅243項通過初評,最終僅28項最終獲得特等獎、一等獎,約占2%。
國家科學技術(shù)進步獎更是競爭者眾。由垂直專業(yè)新媒體“科獎圈”于今年2月的統(tǒng)計可知,2023年科技進步獎共28個分組、709個項目。聚焦信息領(lǐng)域,主要有計算機與自動控制組(45項)、電子與科學儀器組(28項)、網(wǎng)絡(luò)與通信組(13項)三個組。
由公開信息可知,在信息領(lǐng)域,華為陳海波牽頭的“鴻蒙智能終端操作系統(tǒng)基座與產(chǎn)業(yè)應(yīng)用”、百度王海峰牽頭的“產(chǎn)業(yè)級深度學習開源開放平臺”、曙光歷軍牽頭的“國產(chǎn)先進計算系統(tǒng)關(guān)鍵技術(shù)及應(yīng)用”也都在初期提名之列。
可謂“神仙打架”。
不過,從最終結(jié)果來看,只有科大訊飛牽頭的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目戰(zhàn)到最后,并獲得了國家科學技術(shù)進步獎一等獎。
這是深度學習引發(fā)新一代人工智能浪潮以來,過去十年人工智能領(lǐng)域首個國家科學技術(shù)進步獎一等獎??拼笥嶏w也是19項國家科學技術(shù)進步獎特等獎、一等獎中唯一作為牽頭單位獲獎的民營企業(yè)。
二、多語種智能語音及產(chǎn)業(yè)化,為何拔得頭籌
這是一個什么樣的項目?
簡單來說,“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”,是集合了多語種語音識別、多語種語音合成、多語種翻譯技術(shù)等智能語音技術(shù)和產(chǎn)業(yè)化為一體的綜合項目。
目前,該技術(shù)支持69個語種,除了6個聯(lián)合國通用語種,包括漢語、英語、法語、西班牙語、俄語、阿拉伯語等,以及挪威語、丹麥語等63個小語種。同時,該項目還覆蓋了24種主要中國方言。
在堅持國家戰(zhàn)略導向的大背景下,國家科學技術(shù)進步獎的評選標準更系統(tǒng):不僅要完成重大科學技術(shù)創(chuàng)新,還要實現(xiàn)科學技術(shù)成果轉(zhuǎn)化,創(chuàng)造顯著經(jīng)濟效益。
語音是人類最自然便捷的溝通方式,是智能設(shè)備人機交互的關(guān)鍵入口,也是諸多敏感信息的重要載體,還是國際合作的基礎(chǔ)。多語種智能語音技術(shù)對于支撐人機交互、人類語言互通等需求具有重大戰(zhàn)略意義,具有十分廣闊的產(chǎn)業(yè)前景。尤其是在當前全球人工智能發(fā)展迅猛的大背景下,多語種智能語音技術(shù)更是當前國際科技競爭核心焦點之一。
但是,這項技術(shù)面臨著諸多技術(shù)難題,科大訊飛從四個創(chuàng)新點完成了技術(shù)的突破。
1、復雜語音信號解耦建模,破解“雞尾酒會”難題
要說語音識別的最突出難題是什么?很多人知道“雞尾酒會”效應(yīng)——遠場、噪聲、多人講話往往難以聽清。
對此,科大訊飛提出多通道語音信號時空分離建模方法,使人聲和噪聲精確分離;團隊還將多維度語音屬性分層解耦,簡單說就是把內(nèi)容、韻律、音色以及語種等都抽出來,以便更準確地識別和傳達,從而破解“雞尾酒會”難題。
2、多語種共享建模,多語言識別測評超OpenAI
再來看看另一個“卡脖子”技術(shù)——小語種智能語音系統(tǒng)。在當前國際科技限制的情況下,小語種知識匱乏、訓練數(shù)據(jù)稀缺,是困擾小語種訓練的主要難題之一。
科大訊飛設(shè)計了全新的多語種通用音素體系和基本語言單元,實現(xiàn)多語種統(tǒng)一音素韻律體系的構(gòu)建,又通過基于元學習的多語種預訓練和基于語族分組的多語種共享建?!ㄋ椎卣f,就是將不同的小語種進行分類,找到同類語種的共同規(guī)律,進行分析建模和訓練——最終,顯著提升了小語種語音系統(tǒng)性能。
3、語音語義聯(lián)合建模,讀懂深層含義和專業(yè)知識
人們交流中常面臨溝通障礙,深層語義理解對人來說都是困難的,更別說對機器了。
科大訊飛提出語音語義互增強的魯棒口語理解技術(shù),并提出多源知識增強的可信文本生成技術(shù),有效提升語音交互、語音翻譯等復雜場景的語義理解準確率,同時拉高專有詞匯及領(lǐng)域知識引用的準確率。
4、國產(chǎn)異構(gòu)硬件平臺,建立國產(chǎn)化集群
面對算力“卡脖子”難題,科大訊飛也加速了國產(chǎn)異構(gòu)硬件平臺關(guān)鍵技術(shù)的突破。目前,科大訊飛已建成5個國產(chǎn)化集群,2023年與華為聯(lián)合建設(shè)首個萬卡全國產(chǎn)算力平臺“飛星一號”,填補了國產(chǎn)超大模型訓練平臺空白。
除了技術(shù)上的突破之外,在重要評審維度“產(chǎn)業(yè)化”上,科大訊飛圍繞多語種智能語音技術(shù)構(gòu)建了自主可控的產(chǎn)業(yè)生態(tài),開創(chuàng)引領(lǐng)了我國語音產(chǎn)業(yè)的產(chǎn)業(yè)鏈,助力中國制造出海;促進全球語言互通和“一帶一路”建設(shè);并且在進一步打造覆蓋全球的國際產(chǎn)業(yè)生態(tài)。
具體到大家都看得到的場景上:
中國現(xiàn)在是汽車出口第一大國,出口國外的智能汽車需要有外語的交互,由科大訊飛多語種智能技術(shù)而開發(fā)出來的車載智能化產(chǎn)品,就支持奇瑞、一汽、長安等車企超200萬套訂單出海;
出國旅游,科大訊飛基于多語種技術(shù)開創(chuàng)了智能翻譯機的新品類,帶上一個翻譯機就像帶上一個會85種語言的AI翻譯官;
在會議、辦公等場景,訊飛聽見系列產(chǎn)品能夠?qū)崟r記錄和翻譯會議錄音,目前服務(wù)遍及全球50多個國家和地區(qū),支持了超過40萬場會議,科大訊飛還基于此研發(fā)出了普通用戶也能用的訊飛辦公本、訊飛錄音筆等產(chǎn)品。
2017年開始,科大訊飛承建智能語音國家新一代人工智能開放創(chuàng)新平臺,目前已聚集平臺開發(fā)者數(shù)700.7萬,意思就是由700多萬人在調(diào)用多語種智能語音技術(shù)去開發(fā)自己的產(chǎn)品。
這就是技術(shù)帶來的生生不息的產(chǎn)業(yè)生態(tài)。
據(jù)了解,近三年來,“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目累計實現(xiàn)直接經(jīng)濟效益 521.28 億元,并帶動由工信部和安徽省政府共建、以科大訊飛為核心的“中國聲谷”產(chǎn)業(yè)集聚發(fā)展。
不得不說,這么多技術(shù)突破和產(chǎn)業(yè)發(fā)展,不是一朝一夕就能完成的,難怪有媒體說科大訊飛是“十年磨一劍”!
三、大模型時代,多語種智能語音技術(shù)能做什么?
眾所周知,人工智能又來到了新的大模型時代,那么積累十年的多語種智能語音技術(shù)能做什么?
尤其是今年5月,OpenAI推出的GPT-4o模型引爆科技圈。眾多業(yè)內(nèi)專業(yè)人士認為,GPT-4o對萬物互聯(lián)時代語音浪潮的推動,類似于當年Siri對語音應(yīng)用的推動。一夜之間,“語音+大模型”賽道受到各界高度關(guān)注。
科大訊飛多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)是相互補充、相互促進的。
語音屬性解耦、語音信號時空分離等技術(shù)突破,可以將語音信號經(jīng)過編碼后輸入到大語言模型,顯著提升語音大模型的效果。
大模型技術(shù)可以在復雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果,同時基于其強大的語義理解、知識問答、多輪對話、多模態(tài)建模能力,也能進一步大幅提升智能語音技術(shù)的使用場景和應(yīng)用價值。
今年1月30日,科大訊飛就基于上述技術(shù)融合路線發(fā)布了星火語音大模型,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個主要語種的平均識別率為82%,而星火語音大模型達到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復刻能力,使機器具備更加豐富的超擬人情緒感知和表達。
可以預測,語音同傳、自動客服、輔學答疑、家庭醫(yī)生、虛擬員工、陪伴機器人、服務(wù)機器人……這些原有的應(yīng)用都將被變革,科幻片《她(Her)》中的智能陪伴助理也將成為現(xiàn)實。
今年6月27日,訊飛星火V4.0發(fā)布也將公布最新的端到端落地成果,拭目以待。
結(jié)語:大國科技競賽正酣,AI新機遇到來
時隔兩年多,國家科技獎再次重磅頒發(fā),引起了整個智能產(chǎn)業(yè)圈的強烈關(guān)注。
這是十年以來,AI領(lǐng)域項目首次獲得國家科技進步一等獎,表明了國家層面對AI產(chǎn)業(yè)在技術(shù)創(chuàng)新度、轉(zhuǎn)化程度、示范帶動作用等方面的蓋章認可。
當下大國科技競賽正酣,是新的挑戰(zhàn),也是新的戰(zhàn)略機遇。
就像曾經(jīng)的互聯(lián)網(wǎng)技術(shù)一樣,國產(chǎn)的AI技術(shù)不知不覺中已突破奇點,已百花齊放,而大模型技術(shù)及應(yīng)用可能已在爆發(fā)前夜。
發(fā)表評論