[發(fā)明專利]一種唇部語音活動檢測和結(jié)果糾錯的語音識別系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 202110654992.X | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113571051A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計)人: | 馮偉;史鵬;高麗清;劉澤康;劉之諫 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/25;G10L15/26;G10L25/51;G10L25/78;G06F40/232;G06F40/284;G06K9/00;G06K9/62 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 唇部 語音 活動 檢測 結(jié)果 糾錯 識別 系統(tǒng) 方法 | ||
1.一種唇部語音活動檢測和結(jié)果糾錯的語音識別系統(tǒng),其特征在于,包括音視頻處理模塊、語音活動檢測器、語音識別器、專有名詞數(shù)據(jù)庫、識別結(jié)果糾錯器。其中,所述音視頻處理模塊,用于將采集好的包含人臉的視頻進(jìn)行處理,劃分成視頻片段,提取出含有音頻的視頻片段;
所述語音活動檢測器,用于對含有音頻的視頻片段進(jìn)行語音活動檢測,判斷出所述的含有音頻的視頻片段是否為含有語音的視頻片段;方法如下:分為唇部區(qū)域提取器和唇部語音活動檢測器兩部分;所述唇部區(qū)域提取器,使用RetinaFace模型實現(xiàn),通過檢測含有音頻的視頻片段中的人臉,得到唇部關(guān)鍵點和唇部區(qū)域圖片;所述唇部語音活動檢測器,使用LPN模型實現(xiàn),通過視頻片段中視頻幀的唇部關(guān)鍵點和唇部區(qū)域圖片,判斷視頻片段是否為含有語音的視頻片段;
所述語音識別器,用于對被檢測為含有語音的視頻片段中提取出的音頻進(jìn)行語音識別,得到語音識別的原始結(jié)果。
所述專有名詞數(shù)據(jù)庫,用于存儲特定領(lǐng)域的專有名詞和詞對應(yīng)的拼音序列。
所述識別結(jié)果糾錯器,用于對語音識別器的識別結(jié)果進(jìn)行糾錯,方法如下:將語音識別器的原始識別結(jié)果轉(zhuǎn)為拼音序列,計算原始識別結(jié)果的拼音序列和專有名詞數(shù)據(jù)庫中專有名詞的拼音序列的最長公共子序列,對原始識別結(jié)果進(jìn)行糾錯。
2.根據(jù)權(quán)利要求1所述的語音識別系統(tǒng),其特征在于,使用最長公共子序列的方法對原始結(jié)果進(jìn)行糾錯,包括以下步驟:
(1)將語音識別的原始結(jié)果轉(zhuǎn)化為拼音序列;
(2)計算得到語音識別原始結(jié)果的拼音序列和詞庫中每個詞的拼音序列之間的最長公共子序列;
(3)根據(jù)最長公共子序列的首尾字符獲取語音識別原始結(jié)果中的待替換部分;
(4)根據(jù)最長公共子序列、語音識別原始結(jié)果的拼音序列、詞庫中每個詞的拼音序列的數(shù)值,按照一組規(guī)則,選擇出替換詞;
(5)對語音識別原始結(jié)果中的待替換部分進(jìn)行替換。
3.一種使用權(quán)利要求1所述的語音識別系統(tǒng)實現(xiàn)的唇部語音活動檢測和結(jié)果糾錯的語音識別方法,其特征在于,包括以下步驟:
準(zhǔn)備階段,搜集特定領(lǐng)域的專有名詞,并將專有名詞轉(zhuǎn)化為拼音序列,建立專有名詞數(shù)據(jù)庫;
訓(xùn)練階段,訓(xùn)練語音活動檢測器,分別訓(xùn)練唇部區(qū)域提取器和唇部語音活動檢測器;
預(yù)測階段:
步驟一,音視頻處理模塊將采集好的視頻劃分視頻片段,并提取出視頻中的音頻;
步驟二,語音活動檢測器對視頻片段進(jìn)行語音活動檢測;
步驟三,語音識別器對被檢測為語音的視頻片段中提取出的音頻進(jìn)行語音識別,得到語音識別的原始結(jié)果;
步驟四,識別結(jié)果糾錯器對語音識別的原始結(jié)果進(jìn)行糾錯,使用基于最長公共子序列的糾錯方法,當(dāng)語音識別的原始結(jié)果中存在專有名詞識別錯誤時,進(jìn)行糾錯。
4.根據(jù)權(quán)利要求3所述的語音識別方法,其特征在于,唇部區(qū)域提取器使用RetinaFace模型,對RetinaFace的模型結(jié)構(gòu)進(jìn)行修改,將原本的臉部關(guān)鍵點預(yù)測從預(yù)測5個臉部關(guān)鍵點再增加預(yù)測18個唇部關(guān)鍵點。
5.根據(jù)權(quán)利要求3所述的語音識別方法,其特征在于,RetinaFace模型的骨干網(wǎng)絡(luò)MobileNetV1-0.25,優(yōu)化器Adam,學(xué)習(xí)率0.001,weight_decay=5e-4,每經(jīng)過一輪訓(xùn)練,學(xué)習(xí)率縮小到0.92倍。
6.根據(jù)權(quán)利要求3所述的語音識別方法,其特征在于,唇部語音活動檢測器使用LPN模型,訓(xùn)練方法為:使用LSW數(shù)據(jù)集訓(xùn)練,優(yōu)化器Adagrad,初始學(xué)習(xí)率0.0001,每經(jīng)過50000次迭代,學(xué)習(xí)率縮小10倍,momentum0.9,衰減系數(shù)0.0005,在200000次迭代之后結(jié)束訓(xùn)練。
7.根據(jù)權(quán)利要求3所述的語音識別方法,其特征在于,使用最長公共子序列的方法對原始結(jié)果進(jìn)行糾錯,包括以下步驟:
(1)將語音識別的原始結(jié)果轉(zhuǎn)化為拼音序列;
(2)計算得到語音識別原始結(jié)果的拼音序列和詞庫中每個詞的拼音序列之間的最長公共子序列;
(3)根據(jù)最長公共子序列的首尾字符獲取語音識別原始結(jié)果中的待替換部分;
(4)根據(jù)最長公共子序列、語音識別原始結(jié)果的拼音序列、詞庫中每個詞的拼音序列的數(shù)值,按照一組規(guī)則,選擇出替換詞;
(5)對語音識別原始結(jié)果中的待替換部分進(jìn)行替換。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110654992.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





