黨的十八大以來,黨中央高度重視發(fā)展數(shù)字經(jīng)濟,實施網(wǎng)絡強國戰(zhàn)略和國家大數(shù)據(jù)戰(zhàn)略,拓展網(wǎng)絡經(jīng)濟空間,支持基于互聯(lián)網(wǎng)的各類創(chuàng)新,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合,建設數(shù)字中國、智慧社會,推進數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化。
云南省委、省政府認真貫徹落實黨中央、國務院關(guān)于發(fā)展數(shù)字經(jīng)濟的戰(zhàn)略部署,將數(shù)字經(jīng)濟作為重點工作來推動。從傳統(tǒng)產(chǎn)業(yè)到政府公共服務,再到民生領(lǐng)域,數(shù)字潛力加速釋放,數(shù)字經(jīng)濟正成為推動云南高質(zhì)量發(fā)展的強大引擎。2021年,全省數(shù)字經(jīng)濟核心產(chǎn)業(yè)營業(yè)收入突破1900億元,增長率超過20%。
以數(shù)字賦能,讓萬物互聯(lián)。云南在數(shù)字經(jīng)濟建設中大膽嘗試、共建共享,成績可圈可點。即日起,本報將推出云南數(shù)字經(jīng)濟發(fā)展系列報道,以饗讀者。
《云南省數(shù)字經(jīng)濟發(fā)展三年行動方案(2022—2024年)》提出,將實施8大行動26項工程,推動云南省數(shù)字經(jīng)濟發(fā)展邁上新臺階。其中,針對人工智能技術(shù)在南亞、東南亞國家多語種領(lǐng)域應用上,方案提出要培育人工智能重點產(chǎn)品和龍頭企業(yè),支持云南省人工智能重點實驗室突破人工智能機器翻譯、中文與多語種軟件和雙語互譯等關(guān)鍵技術(shù),持續(xù)推動多語種人工智能應用孵化和產(chǎn)業(yè)生態(tài)構(gòu)建。
云南省人工智能重點實驗室是由云南省科技廳批準成立,依托昆明理工大學建設的省級重點實驗室,部分研究成果達到了國內(nèi)領(lǐng)先、國際先進水平。近日,本報記者專訪云南省人工智能重點實驗室常務副主任高盛祥,了解實驗室目前的核心成果,以及在主動融入和服務“一帶一路”建設,助力云南面向南亞東南亞輻射中心建設中,發(fā)揮了哪些重要作用。
高盛祥 昆明理工大學副教授,博士,云南省產(chǎn)業(yè)技術(shù)領(lǐng)軍人才、云南省中青年學術(shù)和技術(shù)帶頭人后備人才,云南省人工智能重點實驗室常務副主任
記者:請您介紹一下云南省人工智能重點實驗室的基本情況。
高盛祥:實驗室成立于2005年,2014年和2015年先后遴選為云南省高校模式識別與智能計算重點實驗室和云南省海量語言信息處理工程實驗室,2019年由云南省科技廳批準,依托昆明理工大學建設云南省人工智能重點實驗室。
實驗室在余正濤教授的帶領(lǐng)下,15年來,結(jié)合國家“一帶一路”倡議和云南省面向南亞東南亞輻射中心定位需求,面向越、老、緬、柬、泰等南亞、東南亞語言,開展自然語言處理與機器翻譯、信息檢索和社會計算、語音識別及合成、圖像識別與檢索等方向的研究,取得了一系列成果,部分成果達到了國際領(lǐng)先水平。
實驗室有一支260余人的研究隊伍,其中教授、副教授30余人,博士碩士研究生200余人,擁有國家“萬人計劃”科技創(chuàng)新領(lǐng)軍人才、國家百千萬人才,云南省科技領(lǐng)軍人才,興滇人才、產(chǎn)業(yè)領(lǐng)軍人才等國家及省部級人才20余人。承擔了國家重點研發(fā)計劃項目、課題、國家自然科學基金重點、面上、地區(qū)項目、云南省科技重大專等國家及省部級項目100余項,在國內(nèi)外高水平會議及期刊發(fā)表論文400余篇,其中SCI/EI檢索300余篇,授權(quán)發(fā)明專利80余項,登記軟件著作權(quán)200余項,獲得云南省自然科學一等獎、云南省科技進步一等獎、云南省教學成果一等獎等省部級獎勵10余項。
記者:云南省人工智能重點實驗室成立的初衷是什么?
高盛祥:“一帶一路、語言鋪路”。語言相通是促進不同國家之間政策溝通、道路聯(lián)通、貿(mào)易暢通、貨幣流通及民心相通的基礎(chǔ)保障。云南省作為“一帶一路”的重要節(jié)點,要主動服務和融入國家“一帶一路”建設,打造面向南亞東南亞的輻射中心,促進面向南亞、東南亞的政治經(jīng)濟文化交流合作,都亟需打破語言壁壘,實現(xiàn)不同國家之間的語言互通。但越南語、老撾語、柬埔寨語、緬甸語、烏爾都語等南亞、東南亞語言都屬于資源稀缺語言,機器翻譯、跨語言信息檢索、OCR文字識別、語音識別及合成等人工智能的關(guān)鍵技術(shù)都還不成熟,相關(guān)的軟硬件產(chǎn)品還很少,對產(chǎn)業(yè)的支撐作用還不明顯。
實驗室場所
因此,實驗室定位于南亞、東南亞的語言語音信息處理方向研究,突破語言信息處理、機器翻譯、跨語言檢索、OCR文字識別、語音識別及合成等一系列關(guān)鍵技術(shù),面向跨境旅游、跨境貿(mào)易、跨境商務交流、文化產(chǎn)品譯制、國際傳播分析、跨境大數(shù)據(jù)分析等應用場景研發(fā)智能翻譯機、多語言會議同傳系統(tǒng)等一系列的軟硬件產(chǎn)品,推動南亞、東南亞語言語音關(guān)鍵技術(shù)與產(chǎn)業(yè)深度結(jié)合,促進云南省面向南亞東南亞數(shù)字經(jīng)濟先行示范區(qū)建設和面向南亞東南亞輻射中心建設。
記者:云南省人工智能重點實驗室成立以來,遇到了哪些難題,是如何化解的?
高盛祥:實驗室從2005年開始,面向南亞、東南亞的語言信息處理方面的研究,這個研究方向非常有特色,但是也面臨了很多難題。一方面,基于深度學習的機器翻譯、跨語言檢索等人工智能技術(shù)都需要大規(guī)模標注語料,這項工作離不開語言專家參與,而懂南亞、東南亞語言的人非常少,語料構(gòu)建的難度非常大,成本非常高;另一方面,南亞、東南亞語言的形態(tài)比較復雜,開展南亞、東南亞語言信息處理的研究機構(gòu)和科研團隊都很少,直接將中英文的語言處理技術(shù)遷移到南亞、東南亞語言上效果不理想,面向南亞、東南亞語言的詞法句法解析、機器翻譯、跨語言檢索等關(guān)鍵技術(shù)都不成熟,研究難度較大。
實驗室扎根云南,圍繞以上難點問題長期不懈地開展研究。一方面,聚焦南亞、東南亞語言信息處理等方向,積極申請國家重點研發(fā)計劃、國家自然科學基金、云南省科技重大專項等項目,近年來獲得了數(shù)十項國家及省部級項目的支持,為研究工作提供了重要的支撐;另一方面,實驗室高度重視人才引進和培養(yǎng)工作,近年來引進和培養(yǎng)該方向博士研究生10余人,形成了穩(wěn)定的南亞、東南亞語言信息處理技術(shù)團隊,實驗室還和周邊的高校以及昆工國際學院建立了良好的合作關(guān)系,組建了一支50余人由南亞、東南亞小語種教師及留學生組成的語言專家團隊,為項目語料采集、標注、語言評測、事件分析等提供語言服務支撐。
通過多年的建設,實驗室形成了一支結(jié)構(gòu)合理、穩(wěn)定的高水平南亞、東南亞研究團隊,形成了特色研究方向,在南亞、東南亞語言資源庫建設、語言詞法句法解析、機器翻譯及跨語言檢索等方面形成了一系列創(chuàng)新性成果。
記者:目前,實驗室的核心成果有哪些,應用在哪些領(lǐng)域,部分研究成果填補了哪些空白?
高盛祥:在南亞、東南亞語言資源庫構(gòu)建方面,實驗室構(gòu)建了百萬級中文—東南亞語言雙語詞典、十億級平行句對等資源庫,填補了大規(guī)模東南亞語言對齊知識及語料庫的空白,對推動東南亞語言信息處理規(guī)?;?、商業(yè)化應用提供了數(shù)據(jù)和知識支撐。
在南亞、東南亞語言解析方面,實驗室搭建了面向南亞、東南亞語言信息處理平臺——小語洞析,實現(xiàn)越南語、老撾語等語言的分詞、詞性標記、實體識別等功能,填補了面向東南亞語言詞法句法解析的空白,很好地推動了南亞、東南亞語言信息處理方向的研究工作。
在南亞、東南亞語言機器翻譯方面,研發(fā)了面向南亞、東南亞語言的神經(jīng)機器翻譯系統(tǒng)——云嶺翻譯,支持越、老、緬、柬、泰、菲律賓、印尼、馬來語、印度語、烏爾都語等108個語種的雙向神經(jīng)機器翻譯引擎,覆蓋了“一帶一路”沿線多個國家,翻譯效果達到了業(yè)內(nèi)領(lǐng)先水平。
在多語言事件檢索及分析方面,研發(fā)了面向南亞、東南亞的跨語言事件分析和檢索系統(tǒng),實現(xiàn)了南亞、東南亞語言的新聞數(shù)據(jù)采集、事件檢索、熱點話題發(fā)現(xiàn)、熱點話題跟蹤、觀點挖掘等功能。
目前,研究成果已在跨境旅游、跨境貿(mào)易、跨境電子商務、教育培訓、多語言會議、文化產(chǎn)品輸出、國際傳播、政務服務、安全等領(lǐng)域得到了很好的應用,取得了很好的社會經(jīng)濟效益。
記者:實驗室研發(fā)的南亞、東南亞語言翻譯機、翻譯軟件,在主動融入和服務“一帶一路”建設、助力云南面向南亞東南亞輻射中心建設中,發(fā)揮了哪些重要作用?
高盛祥:近年來,隨著數(shù)據(jù)資源的不斷積累和技術(shù)的不斷成熟,實驗室研發(fā)的南亞、東南亞語言機器翻譯、跨語言檢索等技術(shù)已基本達到了實用化程度,研發(fā)的云嶺翻譯、智能翻譯機、跨語言事件分析和檢索等一系列軟硬件產(chǎn)品也得到了很好的應用。
在維護國家安全方面,機器翻譯在相關(guān)安全部門部署應用,提供海量小語種文檔的批量快速翻譯,解決了南亞、東南亞信息獲取與分析的難點問題。
在邊境疫情防控方面,為瑞麗、隴川、芒市等邊境城市捐贈300余臺翻譯機,發(fā)布了免費版南亞、東南亞語言翻譯App,極大地緩解了流調(diào)、醫(yī)院等場景下的外籍人員的交流困難問題。
在公眾服務方面,云嶺翻譯面向公眾提供在線的、免費的機器翻譯服務,日均翻譯超600萬次,日均翻譯字符超3億,有效地支撐了公眾面向南亞、東南亞的翻譯需求。
在國際傳播方面,研發(fā)了南亞、東南亞文化產(chǎn)品譯制平臺,譯制完成了《西游記》《走遍云南》等大量影視劇及紀錄片,提高了譯制效率,節(jié)約了譯制成本,提升了面向南亞、東南亞的國際傳播能力。
另外,研發(fā)的翻譯產(chǎn)品在教學資源翻譯、多語言課堂交流、旅游景點多語言翻譯、多語言導游講解、合同翻譯等跨境教育、跨境旅游、跨境貿(mào)易等領(lǐng)域也得到了很好的應用。
記者:實驗室自主研發(fā)的“云嶺翻譯”上線“一部手機辦事通”,在助力云南智慧政務方面取得了哪些成效?
高盛祥:云南省一部手機辦事通是云南省數(shù)字政府建設的重要抓手,平臺注冊用戶目前已經(jīng)超過了2000萬人。實驗室研發(fā)的云嶺翻譯2021年上線了云南省一部手機辦事通平臺,提供了中—英、越、泰等語種的免費翻譯服務,目前累計翻譯次數(shù)已經(jīng)超3000萬次,是全國首家上線政務平臺的翻譯系統(tǒng),很好地緩解了在外商投資、出入境審批等跨境管理服務中的語言溝通難題,創(chuàng)新了政務管理服務模式,提升了政府政務管理及服務能力。
記者:實驗室研發(fā)的產(chǎn)品,在促進跨境貿(mào)易便利化、高效化上,發(fā)揮了哪些作用?
高盛祥:隨著“一帶一路”建設推進,我國與南亞、東南亞國家在經(jīng)濟合作方面增長迅速,今年1月—5月,中國和東盟繼續(xù)互為最大的貿(mào)易伙伴,實驗室研發(fā)的機器翻譯平臺、翻譯App、智能翻譯機等軟硬件產(chǎn)品在跨境貿(mào)易合作方面發(fā)揮了重要作用。
在跨境合作方面,提供了合同文書、教材課件、宣傳視頻、產(chǎn)品介紹等文本、視頻文檔的快速翻譯,提升了跨境合作交流的水平。
產(chǎn)品體驗廳
在跨境電子商務方面,為云南省口岸通關(guān)系統(tǒng)及多家跨境電子商務平臺提供多語言翻譯技術(shù)支撐。
在跨境貿(mào)易談判方面,研發(fā)的多語言會議、多語言社交平臺等交流產(chǎn)品能夠?qū)崿F(xiàn)不同國家人員通過自己語言進行交流,很好地緩解了不同國家之間人員的交流難題。
在境外大數(shù)據(jù)獲取和分析方面,搭建了面向南亞、東南亞的大數(shù)據(jù)分析平臺,通過采集境外數(shù)據(jù)并進行智能化的分析,及時獲取境外企業(yè)的產(chǎn)品、市場需求、價格變動等相關(guān)的商業(yè)信息,提高了企業(yè)的競爭力,在促進云南省優(yōu)勢企業(yè)走出去,推動云南省數(shù)字經(jīng)濟發(fā)展方面發(fā)揮了重要作用。
記者:目前,南亞、東南亞語言機器翻譯關(guān)鍵技術(shù)轉(zhuǎn)化及應用前景是怎么樣的?
高盛祥:實驗室與清華大學、中科院自動化所、老撾國立大學、鵬城國家實驗室、OPPO、小牛等高校、科研院所和企業(yè)等建立了長期良好的合作關(guān)系,聯(lián)合開展成果研發(fā)和轉(zhuǎn)化工作,研發(fā)的語言解析、機器翻譯及跨語言檢索等核心關(guān)鍵技術(shù)在數(shù)十家翻譯公司、智能翻譯硬件產(chǎn)品制造等相關(guān)企業(yè)進行了轉(zhuǎn)化和應用,提升了企業(yè)的競爭力,取得了很好的經(jīng)濟效益。
隨著南亞、東南亞語言機器翻譯技術(shù)的不斷成熟,相關(guān)的機器翻譯產(chǎn)品和應用場景會越來越多,在跨境旅游、跨境貿(mào)易、國際傳播等眾多場景下也會有更多新的需求和新的應用,我們也會圍繞這個目標持續(xù)不斷的打磨技術(shù),研發(fā)新的產(chǎn)品,實現(xiàn)更多更有的技術(shù)到產(chǎn)品的轉(zhuǎn)化。
記者:機器翻譯的未來場景有哪些,云南省人工智能重點實驗室的發(fā)展方向是什么?
高盛祥:隨著國家“一帶一路”建設的不斷深入,南亞、東南亞語言信息處理技術(shù)會取得更大的突破,機器翻譯的性能也會進一步提升,有望在跨境旅游、跨境貿(mào)易、國際傳播、跨境教育、跨境信息服務等方面形成多個千億級的產(chǎn)業(yè),應用前景非常廣闊。
然而,目前實驗室的研究工作主要解決的還是文本翻譯和理解問題,隨著應用的不斷深入,多語言、多模態(tài)等新需求會不斷涌現(xiàn),在大量實際場景下還需要解決南亞、東南亞語言之間的互譯及語音、圖像、視頻、文本等不同模態(tài)數(shù)據(jù)翻譯及不同語言、不同模態(tài)場景下的跨語言事件分析和檢索等一系列難題。
實驗室將繼續(xù)圍繞以上關(guān)鍵技術(shù)難題,突破面向語音、圖像、視頻等多模態(tài)和多語言復雜場景的機器翻譯技術(shù),提升面向安全、貿(mào)易等特定領(lǐng)域的機器翻譯性能,打造一系列產(chǎn)業(yè)應用場景下的南亞、東南亞語言信息處理能力支撐平臺及產(chǎn)業(yè)應用平臺,打造一支國際一流的高水平研究團隊,促進相關(guān)產(chǎn)業(yè)發(fā)展,為云南面向南亞東南亞輻射中心建設提供持續(xù)動力。(本報記者 郭云旗 實習記者 劉金嬌)