[發(fā)明專利]一種唇部語音活動檢測和結(jié)果糾錯的語音識別系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 202110654992.X | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113571051A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計)人: | 馮偉;史鵬;高麗清;劉澤康;劉之諫 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/25;G10L15/26;G10L25/51;G10L25/78;G06F40/232;G06F40/284;G06K9/00;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務(wù)所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 唇部 語音 活動 檢測 結(jié)果 糾錯 識別 系統(tǒng) 方法 | ||
本發(fā)明涉及一種唇部語音活動檢測和結(jié)果糾錯的語音識別系統(tǒng)及識別方法,其特征在于,包括音視頻處理模塊、語音活動檢測器、語音識別器、專有名詞數(shù)據(jù)庫、識別結(jié)果糾錯器。其中,所述音視頻處理模塊,用于將采集好的包含人臉的視頻進行處理,劃分成視頻片段,提取出含有音頻的視頻片段;所述語音活動檢測器,用于對含有音頻的視頻片段進行語音活動檢測,判斷出所述的含有音頻的視頻片段是否為含有語音的視頻片段;所述語音識別器,用于對被檢測為含有語音的視頻片段中提取出的音頻進行語音識別,得到語音識別的原始結(jié)果。所述識別結(jié)果糾錯器,用于對語音識別器的識別結(jié)果進行糾錯。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能、計算機視覺、語音識別領(lǐng)域,具體涉及一種唇部語音活動檢測和結(jié)果糾錯的語音識別系統(tǒng)和方法。
背景技術(shù)
隨著計算機技術(shù)的發(fā)展,人與機器之間的交互越發(fā)頻繁。在各種人機交互方式中,語音是不容忽視的一種重要方式。語音識別技術(shù)在智能家居、手機語音助手等應(yīng)用中大放異彩。2017年3月,根據(jù)Mary Meeker年度互聯(lián)網(wǎng)報告,Google以機器學(xué)習(xí)為背景的語音識別系統(tǒng),在英文領(lǐng)域取得了95%的字準確率,此結(jié)果逼近人類語音識別的準確率。由此可見,目前的語音識別技術(shù),在安靜場景下的識別準確率已經(jīng)達到了較高水平。然而在噪聲場景下,其準確率受到極大影響,造成語音識別在噪聲環(huán)境下存在誤差的原因有很多。語音活動檢測(Voice Activity Detection,VAD)的效果不好是一個原因,語音活動檢測是語音信號處理領(lǐng)域的一項技術(shù),根據(jù)輸入的信號,判斷用戶是否在說話,截取出有效的語音片段,以供后續(xù)的語音識別使用。語音活動檢測可以減少語音識別的計算量,減少噪聲情況下的誤識別。語音活動檢測的效果不好,會導(dǎo)致在對音頻進行句子切分的時候,句子不能被準確切分,導(dǎo)致語音識別的內(nèi)置語言模型無法進行上下文的搜索,使得識別的精度下降。
目前國內(nèi)外對于語音活動檢測的實現(xiàn)主要分為基于音頻信號和基于視頻信號兩種方式。(中國,201810864097)使用后驗概率計算,判斷音頻幀是否為語音幀。(中國,202011332443.2)使用深度學(xué)習(xí)算法識別音頻幀,將達到預(yù)設(shè)的長靜音閾值的幀作為切分點將持續(xù)語音信號切分為多個有效語音段。由于依賴于音頻信號的語音活動檢測很容易受到背景噪音的影響,而在語音識別的實際應(yīng)用場景中,大量的電子設(shè)備可以同時采集用戶的音頻和用戶的面部視頻,因此,本專利使用視頻信號,根據(jù)用戶的唇部動作進行語音活動檢測,以提升噪音環(huán)境下語音識別的精確度。
紐約州立大學(xué)石溪分校提出的LPN模型(Landmark Pooling Network)和傳統(tǒng)的利用音頻作為靜音檢測的方法不同,通過將人臉信息融入深度神經(jīng)網(wǎng)絡(luò)進行特征學(xué)習(xí),實現(xiàn)了基于視頻信號的語音活動檢測,在公開的LSW數(shù)據(jù)集上達到了79.9%的準確率。然而LPN模型要求輸入的圖像只包括唇部區(qū)域。帝國理工學(xué)院提出的開源人臉檢測算法RetinaFace在多個數(shù)據(jù)集上都有良好的精度,在檢測人臉的同時,還可以預(yù)測人臉的關(guān)鍵點。
此外,特定領(lǐng)域的專有名詞也對語音識別有很大的難度。(中國,201710952988)提出一種基于領(lǐng)域識別的對語音識別后文本糾錯的方法,根據(jù)編輯距離計算相似度得分進行糾錯。
發(fā)明內(nèi)容
本發(fā)明的目的是提供對噪聲具有良好魯棒性的語音識別系統(tǒng)和方法,本專利通過對RetinaFace的人臉關(guān)鍵點預(yù)測模塊進行修改,并使用包含唇部關(guān)鍵點的數(shù)據(jù)集進行訓(xùn)練,使其能夠輸出唇部區(qū)域圖像,再通過LPN完成語音活動檢測,此外本發(fā)明還基于最長公共子序列的方法,建立特定領(lǐng)域的專有名詞數(shù)據(jù)庫,在指定了語音識別的特定領(lǐng)域后,對語音識別結(jié)果進行糾錯,糾正語音識別結(jié)果中對專有名詞的識別錯誤。技術(shù)方案如下:
一種唇部語音活動檢測和結(jié)果糾錯的語音識別系統(tǒng),其特征在于,包括音視頻處理模塊、語音活動檢測器、語音識別器、專有名詞數(shù)據(jù)庫、識別結(jié)果糾錯器。其中,
所述音視頻處理模塊,用于將采集好的包含人臉的視頻進行處理,劃分成視頻片段,提取出含有音頻的視頻片段;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110654992.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





