[發(fā)明專利]一種唇語關(guān)鍵詞檢測方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010827853.8 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111914803B | 公開(公告)日: | 2023-06-13 |
| 發(fā)明(設(shè)計)人: | 杜吉祥;陳雪娟;張洪博;翟傳敏 | 申請(專利權(quán))人: | 華僑大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/74;G06V10/82;G06V40/20;G06V10/774;G06V10/764;G06N3/0464;G06F16/732 |
| 代理公司: | 廈門智慧呈睿知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35222 | 代理人: | 陳曉思 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 關(guān)鍵詞 檢測 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明提供一種唇語關(guān)鍵詞檢測方法、裝置、設(shè)備及存儲介質(zhì),其中方法包括:通過DNN方法訓(xùn)練,得到一個二分類的DNN模型;基于所述DNN模型,判斷待檢測的唇語視頻中的每幀唇部圖片的講話狀態(tài),分離出所述唇語視頻的講話片段和非講話片段;提取所述講話片段,并通過唇語識別模型提取查詢樣例和講話片段的每一幀唇部圖片的特征,作為后驗概率特征;基于所述后驗概率特征構(gòu)建相似度矩陣圖;通過卷積神經(jīng)網(wǎng)絡(luò)分類模型對所述相似度矩陣圖進(jìn)行二分類,判斷唇語視頻中是否存在關(guān)鍵詞。本發(fā)明通過端點檢測、唇語識別器提取特征和構(gòu)建相似度矩陣圖,可降低未講話片段對唇語關(guān)鍵詞檢測性能的影響,提高關(guān)鍵詞檢測的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,具體而言,涉及一種唇語關(guān)鍵詞檢測、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
近年來經(jīng)濟(jì)建設(shè)發(fā)展迅猛,信息技術(shù)與科技水平不斷提高,網(wǎng)絡(luò)速度不斷提高,存儲成本不斷降低,監(jiān)控攝像頭遍布各地。面對如此多的監(jiān)控攝像頭,大部分監(jiān)控受限于成本或技術(shù),無法獲取用戶說話的語音內(nèi)容,從而無法根據(jù)語音識別講話內(nèi)容,而唇語識別只要“看到”嘴形就能進(jìn)行內(nèi)容識別,在安防領(lǐng)域可以發(fā)揮出重大作用。然而從對監(jiān)控視頻的利用層面來說,往往并不需要進(jìn)行完整的唇語識別,知道完整的說話內(nèi)容,需要的只是幾個關(guān)鍵詞的識別檢測。唇語關(guān)鍵詞檢測在安防領(lǐng)域能夠起到重要的作用。但是,唇語識別技術(shù)在實際應(yīng)用中還存在很多困難,因此,對這些監(jiān)控視頻進(jìn)行準(zhǔn)確的唇語識別是一件比較困難的事情。
目前,唇語關(guān)鍵詞檢測的研究較少,唇語關(guān)鍵詞檢測的數(shù)據(jù)集中,有一些未講話的片段,這些片段若是比較長,會對關(guān)鍵詞檢測產(chǎn)生影響,但是,關(guān)鍵詞檢測在語音識別這個領(lǐng)域已經(jīng)有了長足的發(fā)展。在語音識別領(lǐng)域中,關(guān)鍵詞檢測方法主要有三類:基于補(bǔ)白模型的方法、基于樣例的方法和基于大詞匯量連續(xù)語音識別系統(tǒng)的方法。基于樣例的語音關(guān)鍵詞檢測方法,輸入的查詢樣例是少量含有關(guān)鍵詞樣例的語音片段,與測試語音片段進(jìn)行相似度計算,如果相似度超過某個閾值,則認(rèn)為測試音頻中含有關(guān)鍵詞。常用的一類方法是基于動態(tài)時間規(guī)整(dynamic?time?warping,DTW)的方法,使用DTW算法來計算兩個音頻特征序列之間的相似度,早期常常使用聲學(xué)特征作為音頻特征,但是容易受環(huán)境、信道、講話人等外部因素的影響。后來引入了后驗概率特征,降低了講話人和環(huán)境對關(guān)鍵詞檢測系統(tǒng)影響。對于后驗概率特征的計算,通常通過搭建音素解碼器將關(guān)鍵詞音頻與測試音頻轉(zhuǎn)換成固定長度的嵌入向量。早期使用人工神經(jīng)網(wǎng)絡(luò),后來,隨著深度學(xué)習(xí)的發(fā)展,通常使用深度神經(jīng)網(wǎng)絡(luò)、LSTM等搭建音素識別器。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種唇語關(guān)鍵詞檢測方法、裝置、設(shè)備及存儲介質(zhì)用以解決上述問題。
本發(fā)明實施例提供了一種唇語關(guān)鍵詞檢測方法,其包括:
通過DNN方法訓(xùn)練,得到一個二分類的DNN模型;
基于所述DNN模型,判斷待檢測的唇語視頻中的每幀唇部圖片的講話狀態(tài),分離出所述唇語視頻的講話片段和非講話片段;
提取所述講話片段,并通過唇語識別模型提取查詢樣例和講話片段的每一幀唇部圖片的特征,作為后驗概率特征;
基于所述后驗概率特征構(gòu)建相似度矩陣圖;
通過卷積神經(jīng)網(wǎng)絡(luò)分類模型對所述相似度矩陣圖進(jìn)行二分類,判斷唇語視頻中是否存在關(guān)鍵詞。
進(jìn)一步的,所述整個唇語視頻分為8個狀態(tài):
未知狀態(tài)、講話開始狀態(tài)、講話狀態(tài)、講話結(jié)束狀態(tài)、非講話開始狀態(tài)、非講話狀態(tài)、非講話結(jié)束狀態(tài)、結(jié)束狀態(tài);其中:
在所述講話開始狀態(tài)之前和所述講話結(jié)束狀態(tài)之后,補(bǔ)一段非講話幀,以防止判斷過程中的誤判。
進(jìn)一步的,所述唇語識別模型具體用于:
通過三維卷積和二維Densenet提取唇部圖片序列的視覺特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華僑大學(xué),未經(jīng)華僑大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010827853.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機(jī)設(shè)備





