[發(fā)明專利]一種基于關(guān)鍵詞的語(yǔ)音識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811636670.7 | 申請(qǐng)日: | 2018-12-29 |
| 公開(kāi)(公告)號(hào): | CN109545190B | 公開(kāi)(公告)日: | 2021-06-29 |
| 發(fā)明(設(shè)計(jì))人: | 許超逸;劉曉珍;張惠亮;吳鋒海 | 申請(qǐng)(專利權(quán))人: | 聯(lián)動(dòng)優(yōu)勢(shì)科技有限公司 |
| 主分類號(hào): | G10L15/04 | 分類號(hào): | G10L15/04;G10L15/06;G10L15/16;G10L25/24;G10L25/30 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100082 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)鍵詞 語(yǔ)音 識(shí)別 方法 | ||
1.一種基于關(guān)鍵詞的語(yǔ)音識(shí)別方法,其特征在于,包括:
獲取語(yǔ)音信號(hào),并將所述語(yǔ)音信號(hào)按照時(shí)間順序切分為至少一個(gè)語(yǔ)音切片;
采用預(yù)先訓(xùn)練的LAS模型得到與每個(gè)語(yǔ)音切片對(duì)應(yīng)的拼音切片;
將所有拼音切片拼接為與所述語(yǔ)音信號(hào)對(duì)應(yīng)的拼音序列;
根據(jù)預(yù)存的關(guān)鍵詞拼音列表,得到所述拼音序列中包含的關(guān)鍵詞拼音;
其中,所述LAS模型包括編碼器和解碼器,且所述編碼器包括偏差模塊,所述偏差模塊用于對(duì)至少一個(gè)關(guān)鍵詞進(jìn)行編碼,具體包括:在訓(xùn)練后的LAS模型無(wú)法準(zhǔn)確識(shí)別長(zhǎng)尾關(guān)鍵詞時(shí),對(duì)長(zhǎng)尾關(guān)鍵詞單獨(dú)進(jìn)行編碼,并將編碼的結(jié)果直接應(yīng)用于所述解碼器當(dāng)中;且所述LAS模型,采用多頭注意力機(jī)制以從不同角度對(duì)相似性能進(jìn)行度量;以及在所述解碼器的輸出層增加條件隨機(jī)場(chǎng)層,并采用計(jì)劃采樣機(jī)制訓(xùn)練所述解碼器,以緩解所述解碼器因在訓(xùn)練階段的部分輸入是標(biāo)準(zhǔn)的準(zhǔn)確的拼音序列,而在推斷階段用到的則是上一步產(chǎn)生的輸出結(jié)果產(chǎn)生的不一致;采用標(biāo)簽平滑歸一化的正則化,以緩解獨(dú)熱編碼導(dǎo)致模型過(guò)于依賴預(yù)測(cè)的標(biāo)簽而造成的過(guò)擬合;以及在目標(biāo)損失函數(shù)中增加誤字率損失。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取語(yǔ)音信號(hào),并將所述語(yǔ)音信號(hào)按照時(shí)間順序切分為至少一個(gè)語(yǔ)音切片;具體為:
獲取語(yǔ)音信號(hào),并將所述語(yǔ)音信號(hào)按照時(shí)間順序切分為至少一個(gè)語(yǔ)音切片,且任意相鄰兩個(gè)語(yǔ)音切片存在預(yù)設(shè)重疊長(zhǎng)度的重疊片段。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述采用預(yù)先訓(xùn)練的LAS模型得到與每個(gè)語(yǔ)音切片對(duì)應(yīng)的拼音切片;具體為:
采用梅爾頻率倒譜系數(shù)提取每個(gè)語(yǔ)音切片的特征向量;
根據(jù)所述語(yǔ)音切片的特征向量采用預(yù)先訓(xùn)練的LAS模型得到與每個(gè)語(yǔ)音切片對(duì)應(yīng)的拼音切片。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
獲取網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)對(duì)所述LAS模型進(jìn)行預(yù)訓(xùn)練;
預(yù)訓(xùn)練過(guò)后再通過(guò)自有標(biāo)注的訓(xùn)練語(yǔ)音信號(hào)來(lái)對(duì)所述LAS模型繼續(xù)進(jìn)行微調(diào)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述LAS模型需結(jié)合由外部文本訓(xùn)練的語(yǔ)言模型。
6.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一項(xiàng)所述的語(yǔ)音識(shí)別方法的步驟。
7.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一項(xiàng)所述的語(yǔ)音識(shí)別方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于聯(lián)動(dòng)優(yōu)勢(shì)科技有限公司,未經(jīng)聯(lián)動(dòng)優(yōu)勢(shì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811636670.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





