[發(fā)明專利]一種唇語關(guān)鍵詞檢測方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010827853.8 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111914803B | 公開(公告)日: | 2023-06-13 |
| 發(fā)明(設(shè)計)人: | 杜吉祥;陳雪娟;張洪博;翟傳敏 | 申請(專利權(quán))人: | 華僑大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/74;G06V10/82;G06V40/20;G06V10/774;G06V10/764;G06N3/0464;G06F16/732 |
| 代理公司: | 廈門智慧呈睿知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35222 | 代理人: | 陳曉思 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 關(guān)鍵詞 檢測 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種唇語關(guān)鍵詞檢測方法,其特征在于,包括以下步驟:
通過DNN方法訓(xùn)練,得到一個二分類的DNN模型;
基于所述DNN模型,判斷待檢測的唇語視頻中的每幀唇部圖片的講話狀態(tài),分離出所述唇語視頻的講話片段和非講話片段;整個唇語視頻分為8個狀態(tài):未知狀態(tài)、講話開始狀態(tài)、講話狀態(tài)、講話結(jié)束狀態(tài)、非講話開始狀態(tài)、非講話狀態(tài)、非講話結(jié)束狀態(tài)、結(jié)束狀態(tài);
提取所述講話片段,并通過唇語識別模型提取查詢樣例和講話片段的每一幀唇部圖片的特征,作為后驗概率特征;所述唇語識別模型具體用于:通過三維卷積和二維Densenet提取唇部圖片序列的視覺特征;通過resBi-sLSTM解碼所述視覺特征;通過CTC損失函數(shù)對解碼視覺特征進行訓(xùn)練;
基于所述后驗概率特征構(gòu)建相似度矩陣圖;其中,具體為:
將查詢樣例的后驗概率特征與講話片段的后驗概率特征進行向量點積運算,取對數(shù)獲得相似度矩陣圖;其中,向量點積運算及取對數(shù)的過程為:
其中,且,和分別代表查詢樣例和唇語片段的幀數(shù),計算得到的相似度矩陣的值越高,則表示這兩個向量之間的相似度越高;
通過卷積神經(jīng)網(wǎng)絡(luò)分類模型對所述相似度矩陣圖進行二分類,判斷唇語視頻中是否存在關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的一種唇語關(guān)鍵詞檢測方法,其特征在于,還包括:
在所述講話開始狀態(tài)之前和所述講話結(jié)束狀態(tài)之后,補一段非講話幀,以防止判斷過程中的誤判。
3.根據(jù)權(quán)利要求1所述的一種唇語關(guān)鍵詞檢測方法,其特征在于,還包括:
對所述相似度矩陣的值做歸一化計算,使相似度矩陣中的所有值都處于區(qū)間內(nèi),計算過程如下:
4.根據(jù)權(quán)利要求1所述的一種唇語關(guān)鍵詞檢測方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)分類模型具體用于:
通過6層卷積、2層maxpool、自適應(yīng)均值池化和全連接層構(gòu)建;
通過負對數(shù)似然損失函數(shù)進行訓(xùn)練。
5.根據(jù)權(quán)利要求4所述的一種唇語關(guān)鍵詞檢測方法,其特征在于,所述負對數(shù)似然損失函數(shù)對softmax的輸出概率取對數(shù)后的值進行損失函數(shù)計算,公式如下:
其中,
6.一種唇語關(guān)鍵詞檢測裝置,包括
訓(xùn)練模塊,用于通過DNN方法訓(xùn)練,得到一個二分類的DNN模型;
分離模塊,用于基于所述DNN模型,判斷待檢測的唇語視頻中的每幀唇部圖片的講話狀態(tài),分離出所述唇語視頻的講話片段和非講話片段;整個唇語視頻分為8個狀態(tài):未知狀態(tài)、講話開始狀態(tài)、講話狀態(tài)、講話結(jié)束狀態(tài)、非講話開始狀態(tài)、非講話狀態(tài)、非講話結(jié)束狀態(tài)、結(jié)束狀態(tài);
提取模塊,用于提取所述講話片段,并通過唇語識別模型提取查詢樣例和講話片段的每一幀唇部圖片的特征,作為后驗概率特征;所述唇語識別模型具體用于:通過三維卷積和二維Densenet提取唇部圖片序列的視覺特征;通過resBi-sLSTM解碼所述視覺特征;通過CTC損失函數(shù)對解碼視覺特征進行訓(xùn)練;
構(gòu)建模塊,用于基于所述后驗概率特征構(gòu)建相似度矩陣圖;將查詢樣例的后驗概率特征與講話片段的后驗概率特征進行向量點積運算,取對數(shù)獲得相似度矩陣圖;其中,向量點積運算及取對數(shù)的過程為:
其中,且,和分別代表查詢樣例和唇語片段的幀數(shù),計算得到的相似度矩陣的值越高,則表示這兩個向量之間的相似度越高;
分類模塊,用于通過卷積神經(jīng)網(wǎng)絡(luò)分類模型對所述相似度矩陣圖進行二分類,判斷唇語視頻中是否存在關(guān)鍵詞。
7.一種唇語關(guān)鍵詞檢測設(shè)備,其特征在于,包括存儲器以及處理器,所述存儲器內(nèi)存儲有計算機程序,所述處理器用于運行所述計算機程序以實現(xiàn)如權(quán)利要求1-5任意一項所述的一種唇語關(guān)鍵詞檢測方法。
8.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被所述存儲介質(zhì)所在設(shè)備的處理器執(zhí)行,以實現(xiàn)如權(quán)利要求1-5任意一項所述的一種唇語關(guān)鍵詞檢測方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華僑大學(xué),未經(jīng)華僑大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010827853.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機設(shè)備





