當(dāng)前,我國(guó)經(jīng)濟(jì)發(fā)展方式已轉(zhuǎn)向高質(zhì)量發(fā)展的新階段,依靠資源和要素投入的驅(qū)動(dòng)力持續(xù)減弱,創(chuàng)新逐漸成為第一動(dòng)力,源源不斷地發(fā)展出新技術(shù)、新業(yè)態(tài)、新模式,持續(xù)提高勞動(dòng)生產(chǎn)率,加快構(gòu)建了以國(guó)內(nèi)大循環(huán)為主體、國(guó)內(nèi)國(guó)際雙循環(huán)互相促進(jìn)的新發(fā)展格局。
在過(guò)往的一年中,思必馳研發(fā)技術(shù)不斷創(chuàng)新,推出發(fā)音人音色定制平臺(tái)、DUI標(biāo)注訓(xùn)練一體化平臺(tái)、智云譯芯平臺(tái)、千語(yǔ)千訓(xùn)系統(tǒng),并上線24K高保真音色,情感合成等技術(shù),助力百業(yè)實(shí)現(xiàn)效率提升。同時(shí),思必馳技術(shù)在多項(xiàng)比賽中獲得大獎(jiǎng),充分印證了自己的技術(shù)創(chuàng)新實(shí)力。
(相關(guān)資料圖)
01蟬聯(lián)中文醫(yī)療權(quán)威榜單CBLUE
在醫(yī)療行業(yè),人工智能、大數(shù)據(jù)技術(shù)等應(yīng)用場(chǎng)景逐漸豐富,在幫助人類恢復(fù)健康中發(fā)揮了重要作用。人工智能技術(shù)也逐漸成為影響醫(yī)療行業(yè)發(fā)展和提升醫(yī)療服務(wù)水平的重要因素。過(guò)去的一年中,思必馳語(yǔ)言與知識(shí)團(tuán)隊(duì)在醫(yī)療領(lǐng)域再次取得關(guān)鍵突破,在CBLUE2.0月度榜單中蟬聯(lián)冠軍,分別奪得2月、3月榜單冠軍。
基于千萬(wàn)量級(jí)的醫(yī)療領(lǐng)域語(yǔ)料,思必馳自主構(gòu)建了醫(yī)療領(lǐng)域預(yù)訓(xùn)練語(yǔ)言模型和醫(yī)療知識(shí)圖譜,針對(duì)下游任務(wù)微調(diào)并進(jìn)行模型融合,在醫(yī)療行業(yè)應(yīng)用中體現(xiàn)了重要價(jià)值。榜單任務(wù)形式多樣,涉及知識(shí)抽取、意圖分類、語(yǔ)義匹配,對(duì)話生成等多個(gè)基礎(chǔ)NLP技術(shù)。
在此之前,思必馳已成功將醫(yī)療領(lǐng)域NLP技術(shù)在多個(gè)項(xiàng)目中落地,并在CBLUE1.0榜單中取得佳績(jī),此次登頂有效驗(yàn)證了思必馳語(yǔ)言與知識(shí)團(tuán)隊(duì)在醫(yī)療NLP技術(shù)的專業(yè)性與全面性。
02刷新Text-to-SQL語(yǔ)義解析任務(wù)多個(gè)榜單紀(jì)錄
在日常生活和生產(chǎn)中,常會(huì)產(chǎn)生的海量的數(shù)據(jù),這些數(shù)據(jù)被大量存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)庫(kù)中。此前,人們通過(guò)直接編寫(xiě)SQL語(yǔ)句和數(shù)據(jù)庫(kù)進(jìn)行交互,但此類方法效率較低。后來(lái),人們開(kāi)始使用基于自然語(yǔ)言發(fā)展起來(lái)的數(shù)據(jù)庫(kù)查詢接口(NLIDB)與數(shù)據(jù)庫(kù)進(jìn)行交互,該方法高效簡(jiǎn)潔,而NLIDB背后的核心技術(shù)就是Text-to-SQL語(yǔ)義解析。
思必馳-上海交大人機(jī)交互聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)在取得Text-to-SQL任務(wù)英文基準(zhǔn)榜單Spider第一名后,過(guò)去的一年中,又取得Text-to-SQL任務(wù)中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務(wù)三個(gè)最經(jīng)典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團(tuán)隊(duì)在之前提出的線圖增強(qiáng)的Text-to-SQL模型LGESQL的基礎(chǔ)上,進(jìn)一步提出了結(jié)構(gòu)化的動(dòng)態(tài)解碼方案GTL,使得模型既能很好地編碼結(jié)構(gòu)化的異構(gòu)輸入,同時(shí)也能夠?qū)崿F(xiàn)高效準(zhǔn)確的結(jié)構(gòu)化解碼。
03榮獲IWSLT 2022英中同聲傳譯冠軍
IWSLT是國(guó)際上最具影響力的口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽之一,設(shè)置了同聲傳譯、離線語(yǔ)音翻譯等7個(gè)任務(wù)。思必馳-上海交大聯(lián)合團(tuán)隊(duì)(AISP-SJTU)參加英-中同聲傳譯任務(wù),以優(yōu)異的成績(jī)獲得Speech-to-Text賽道第一名。
思必馳-上海交大團(tuán)隊(duì)在充分總結(jié)前人經(jīng)驗(yàn)的基礎(chǔ)上,積極開(kāi)拓創(chuàng)新,采用了引入預(yù)訓(xùn)練語(yǔ)言模型,大幅提升ASR性能、無(wú)限左看,隨機(jī)右看等關(guān)鍵技術(shù)。
本次比賽,結(jié)合各種技術(shù)手段打造了英-中同聲傳譯最優(yōu)基線,也對(duì)端到端模型做了初步探索。端到端模型在速度和誤差傳導(dǎo)上比級(jí)聯(lián)模型更占優(yōu)勢(shì),未來(lái)思必馳-上海交大聯(lián)合團(tuán)隊(duì)希望進(jìn)一步研究有效的數(shù)據(jù)擴(kuò)增手段,來(lái)提升端到端模型的翻譯效果。
04登頂中文知識(shí)圖譜問(wèn)答權(quán)威榜單KgCLUE
在過(guò)去的一年中,思必馳語(yǔ)言與知識(shí)團(tuán)隊(duì)研發(fā)的AI-KBQA算法一舉拿下了大規(guī)模權(quán)威中文知識(shí)圖譜問(wèn)答KgCLUE測(cè)評(píng)榜單第一名,這充分印證了團(tuán)隊(duì)對(duì)中文自然語(yǔ)言及知識(shí)圖譜精確的語(yǔ)義解析、知識(shí)檢索和知識(shí)推理能力。
在參與比賽的過(guò)程中,思必馳語(yǔ)言與知識(shí)團(tuán)隊(duì)針對(duì)KBQA任務(wù)的特點(diǎn),從以下三個(gè)方面設(shè)計(jì)并優(yōu)化命名實(shí)體識(shí)別、實(shí)體鏈接、屬性匹配模塊:
高細(xì)粒度知識(shí)圖譜:團(tuán)隊(duì)預(yù)研了千萬(wàn)量級(jí)的高細(xì)粒度的中文知識(shí)圖譜。在命名實(shí)體識(shí)別模塊,高細(xì)粒度的知識(shí)圖譜可以有效幫助模型識(shí)別同名實(shí)體,提升實(shí)體識(shí)別的準(zhǔn)確性,同時(shí)可以有效減少因同名實(shí)體帶來(lái)的實(shí)體鏈接錯(cuò)誤。
多階段實(shí)體鏈接:將實(shí)體的檢索分為多個(gè)階段,檢索對(duì)象擴(kuò)大至與實(shí)體相關(guān)的文本片段以提高模型的實(shí)體檢索能力。
屬性匹配增強(qiáng):鑒于實(shí)體中往往具有不同值的相似屬性,模型在對(duì)實(shí)體的屬性進(jìn)行預(yù)測(cè)時(shí),不僅對(duì)單個(gè)屬性進(jìn)行預(yù)測(cè),同時(shí)也會(huì)對(duì)全部的屬性列表進(jìn)行篩選,從而在相似屬性上更具有區(qū)分度。
團(tuán)隊(duì)在參與比賽過(guò)程中,不斷改進(jìn)和優(yōu)化模型,使用模型集成的方式來(lái)增強(qiáng)模型的泛化能力。AI-KBQA算法的得分由最初的94.81提升至98.78,在大規(guī)模中文知識(shí)圖譜問(wèn)答榜KgCLUE1.0 中排名第一,并且在多項(xiàng)子任務(wù)得分上同樣取得了第一名的佳績(jī)。
思必馳已經(jīng)形成產(chǎn)學(xué)研一體化的成熟發(fā)展模式,始終堅(jiān)持基礎(chǔ)源頭技術(shù)創(chuàng)新,不斷鞏固技術(shù)研發(fā)創(chuàng)新實(shí)力,未來(lái)思必馳將繼續(xù)深耕技術(shù)研發(fā),助力各行各業(yè)實(shí)現(xiàn)智慧化發(fā)展。