[發(fā)明專(zhuān)利]一種語(yǔ)音識(shí)別方法、裝置和電子設(shè)備有效

申請(qǐng)?zhí)枺?/td>	202011294806.8	申請(qǐng)日：	2020-11-18
公開(kāi)（公告）號(hào)：	CN112420050B	公開(kāi)（公告）日：	2021-06-18
發(fā)明（設(shè)計(jì)）人：	易中華	申請(qǐng)（專(zhuān)利權(quán)）人：	北京帝派智能科技有限公司
主分類(lèi)號(hào)：	G10L15/26	分類(lèi)號(hào)：	G10L15/26;G10L15/14;G10L15/16
代理公司：	北京弘權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 11363	代理人：	郭放;許偉群
地址：	100080 北京市***	國(guó)省代碼：	北京;11
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種語(yǔ)音識(shí)別方法裝置電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本申請(qǐng)實(shí)施例提供了一種語(yǔ)音識(shí)別方法、裝置和電子設(shè)備，能夠使用聲學(xué)模型生成第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的第一聲學(xué)表征；使用第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的第一文本數(shù)據(jù)和第一聲學(xué)表征訓(xùn)練數(shù)據(jù)生成器模型，以使數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對(duì)應(yīng)的聲學(xué)表征；使用數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對(duì)應(yīng)的第二聲學(xué)表征，第二文本數(shù)據(jù)的規(guī)模大于第一文本數(shù)據(jù)；使用第二文本數(shù)據(jù)和第二聲學(xué)表征訓(xùn)練語(yǔ)言模型，以使語(yǔ)言模型用于根據(jù)聲學(xué)模型輸出的聲學(xué)表征生成對(duì)應(yīng)的文本序列。本申請(qǐng)實(shí)施例的技術(shù)方案，通過(guò)數(shù)據(jù)生成器模型增大了聲學(xué)表征的規(guī)模，使得訓(xùn)練得到的語(yǔ)音識(shí)別系統(tǒng)可以應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別的場(chǎng)景中，并且具有較高的準(zhǔn)確性。

技術(shù)領(lǐng)域

本申請(qǐng)涉及自然語(yǔ)言處理技術(shù)領(lǐng)域，尤其涉及一種語(yǔ)音識(shí)別方法、裝置和電子設(shè)備。

背景技術(shù)

語(yǔ)音識(shí)別技術(shù)(speech recognition)，也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(automaticspeech recognition，ASR)、電腦語(yǔ)音識(shí)別(computer speech recognition)或是語(yǔ)音轉(zhuǎn)文本識(shí)別(speech to text,STT)，其目標(biāo)是計(jì)算機(jī)自動(dòng)將人類(lèi)的語(yǔ)音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字。語(yǔ)音識(shí)別技術(shù)可以應(yīng)用在包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、聽(tīng)寫(xiě)數(shù)據(jù)錄入等眾多領(lǐng)域。如果將語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)(如機(jī)器翻譯及語(yǔ)音合成技術(shù))相結(jié)合，則可以構(gòu)建出更加復(fù)雜的應(yīng)用，例如語(yǔ)音到語(yǔ)音的翻譯等。

目前的語(yǔ)音識(shí)別系統(tǒng)，通常采用聲學(xué)模型和語(yǔ)言模型完全分離的方法進(jìn)行訓(xùn)練，并以一種松耦合的方式進(jìn)行語(yǔ)音識(shí)別應(yīng)用，聲學(xué)模型中僅蘊(yùn)含最基礎(chǔ)的語(yǔ)言模型信息，而語(yǔ)言模型僅蘊(yùn)含了語(yǔ)言相關(guān)的信息卻與聲學(xué)數(shù)據(jù)無(wú)關(guān)，即語(yǔ)言模型僅僅表征了文本層面的文字搭配關(guān)系。這種方案的缺陷在于：聲學(xué)模型和語(yǔ)言模型是單獨(dú)訓(xùn)練并且獨(dú)立優(yōu)化的，因此無(wú)法對(duì)管道方案進(jìn)行端到端的整體優(yōu)化，也就無(wú)法得出全局最優(yōu)識(shí)別結(jié)果，因此管道方案的語(yǔ)音識(shí)別準(zhǔn)確性難以提升。

為克服上述缺陷，現(xiàn)有技術(shù)還通過(guò)了一種將語(yǔ)音識(shí)別系統(tǒng)的所有組件作為單一的端到端網(wǎng)絡(luò)模型的方案。然而，這種端到端網(wǎng)絡(luò)模型的方案采用音頻-文本的樣本訓(xùn)練，而目前音頻-文本的樣本的數(shù)量規(guī)模通常只能滿(mǎn)足聲學(xué)模型的訓(xùn)練要求，無(wú)法滿(mǎn)足語(yǔ)言模型的訓(xùn)練要求，這就導(dǎo)致該模型無(wú)法在大詞匯量連續(xù)語(yǔ)音識(shí)別應(yīng)用中有廣泛適用性，僅能用于特定用途的小型語(yǔ)音識(shí)別系統(tǒng)中，并且準(zhǔn)確率和擴(kuò)展性不如傳統(tǒng)管道方案如聲學(xué)模型加N-Gram語(yǔ)言模型。

發(fā)明內(nèi)容

本申請(qǐng)實(shí)施例提供了一種語(yǔ)音識(shí)別方法、裝置和電子設(shè)備，以解決提高語(yǔ)音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率。

第一方面，本申請(qǐng)實(shí)施例提供了一種語(yǔ)音識(shí)別方法，該方法包括：使用聲學(xué)模型生成第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的第一聲學(xué)表征；使用第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的第一文本數(shù)據(jù)和第一聲學(xué)表征訓(xùn)練數(shù)據(jù)生成器模型，以使數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對(duì)應(yīng)的聲學(xué)表征；使用數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對(duì)應(yīng)的第二聲學(xué)表征，第二文本數(shù)據(jù)的規(guī)模大于第一文本數(shù)據(jù)；使用第二文本數(shù)據(jù)和第二聲學(xué)表征訓(xùn)練語(yǔ)言模型，以使語(yǔ)言模型用于根據(jù)聲學(xué)模型輸出的聲學(xué)表征生成對(duì)應(yīng)的文本序列。

在一種可選擇的實(shí)現(xiàn)方式中，使用第一語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的第一文本數(shù)據(jù)和第一聲學(xué)表征訓(xùn)練數(shù)據(jù)生成器模型，包括：生成第一文本數(shù)據(jù)對(duì)應(yīng)的第一發(fā)音符號(hào)序列；以第一發(fā)音符號(hào)序列作為數(shù)據(jù)生成器模型的輸入，以第一聲學(xué)表征作為數(shù)據(jù)生成器模型的輸出，并且使用聲學(xué)模型的輸出作為數(shù)據(jù)生成器模型的監(jiān)督信號(hào)，訓(xùn)練數(shù)據(jù)生成器模型。

在一種可選擇的實(shí)現(xiàn)方式中，使用數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對(duì)應(yīng)的第二聲學(xué)表征，包括：生成第二文本數(shù)據(jù)對(duì)應(yīng)的第二發(fā)音符號(hào)序列；將第二發(fā)音符號(hào)序列輸入到數(shù)據(jù)生成器模型，以生成第二聲學(xué)表征。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京帝派智能科技有限公司，未經(jīng)北京帝派智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011294806.8/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。