[發明專利]免語音喚醒方法、智能設備和計算機可讀存儲介質在審
| 申請號: | 202110019690.5 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112381069A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 傅濤;楊杰;馮凌;王力 | 申請(專利權)人: | 博智安全科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G10L15/25;G10L15/22 |
| 代理公司: | 北京元周律知識產權代理有限公司 11540 | 代理人: | 史冬梅 |
| 地址: | 210012 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 喚醒 方法 智能 設備 計算機 可讀 存儲 介質 | ||
1.一種免語音喚醒方法,其特征在于,包括:
獲取嘴部圖像序列,從所述嘴部圖像序列中提取嘴部特征;
確定所述嘴部特征對應的音素值;
計算所述音素值與設定的喚醒詞對應的音素值之間的相似度,當所述相似度大于設定的相似度閾值時,則喚醒智能設備;
所述從所述嘴部圖像序列中提取嘴部特征,具體為:
利用2D卷積神經網絡從所述嘴部圖像序列中提取嘴部運動的空間特征,得到嘴部運動的空間特征信息;
利用1D卷積神經網絡從所述嘴部圖像序列中提取嘴部運動的時間特征,得到嘴部運動的時域特征信息;
利用多時空信息融合殘差網絡融合所述時域特征信息和所述空間特征信息,得到融合后的所述嘴部特征;
相應地,確定所述嘴部特征對應的音素值,具體為:
確定融合后的所述嘴部特征對應的音素值。
2.根據權利要求1所述的免語音喚醒方法,其特征在于,所述確定融合后的所述嘴部特征對應的音素值,具體為:
利用融合后的所述嘴部特征,確定因素單元的識別概率結果;
將所述音素單元的識別概率結果輸入連接時序分類器,得到音素單元的分類結果;
采用引入注意力機制的解碼方法解碼所述音素單元的分類結果,得到所述嘴部特征對應的音素值。
3.根據權利要求2所述的免語音喚醒方法,其特征在于,所述利用融合后的所述嘴部特征,確定因素單元的識別概率結果,具體為:
將融合后的所述嘴部特征輸入Bi-GRU模型,得到音素單元的識別概率結果。
4.根據權利要求2所述的免語音喚醒方法,其特征在于,所述采用引入注意力機制的解碼方法解碼所述音素單元的分類結果,得到所述嘴部特征對應的音素值,具體為:
通過注意力得到所述音素單元的分類結果中音素單元每個時刻的隱藏狀態;
獲取每個所述隱藏狀態的得分;
獲取注意力的得分;
計算所述隱藏狀態的得分與所述注意力的得分的加權和,得到語境向量;
將所述語境向量輸入至所述解碼器中進行聯合訓練,得到所述嘴部特征對應的音素值。
5.根據權利要求1~4任一項所述的免語音喚醒方法,其特征在于,所述獲取嘴部圖像序列,具體為:
獲取面部視頻圖像;
利用人臉檢測器,從所述面部視頻圖像中切割出嘴部圖像序列。
6.一種智能設備,其特征在于,包括:
圖像獲取單元,用于獲取嘴部圖像序列,并從所述嘴部圖像序列中提取出嘴部特征;
音素確定單元,用于確定所述嘴部特征對應的音素值;
喚醒單元,用于計算所述音素值與設定的喚醒詞對應的音素值之間的相似度,當所述相似度大于設定的相似度閾值時,則喚醒智能設備;
所述圖像獲取單元包括視頻采集模塊、圖像序列確定模塊、空間特征提取模塊、時域特征提取模塊和融合模塊;
所述視頻采集模塊,用于獲取面部視頻圖像;
所述圖像序列確定模塊,用于利用人臉檢測器,從所述面部視頻圖像中切割出嘴部圖像序列;
所述空間特征提取模塊,用于利用2D卷積神經網絡從所述嘴部圖像序列中提取嘴部運動的空間特征,得到嘴部運動的空間特征信息;
所述時域特征提取模塊,用于利用1D卷積神經網絡從所述嘴部圖像序列中提取嘴部運動的時間特征,得到嘴部運動的時域特征信息;
所述融合模塊,用于利用多時空信息融合殘差網絡融合所述時域特征信息和所述空間特征信息,得到融合后的所述嘴部特征;
相應地,所述音素確定單元,用于確定所述嘴部特征對應的音素值,具體為:
所述音素確定單元,用于確定融合后的所述嘴部特征對應的音素值。
7.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1~5任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于博智安全科技股份有限公司,未經博智安全科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110019690.5/1.html,轉載請聲明來源鉆瓜專利網。





