[發(fā)明專利]免語音喚醒方法、智能設(shè)備和計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110019690.5 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112381069A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計)人: | 傅濤;楊杰;馮凌;王力 | 申請(專利權(quán))人: | 博智安全科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G10L15/25;G10L15/22 |
| 代理公司: | 北京元周律知識產(chǎn)權(quán)代理有限公司 11540 | 代理人: | 史冬梅 |
| 地址: | 210012 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 喚醒 方法 智能 設(shè)備 計算機 可讀 存儲 介質(zhì) | ||
本發(fā)明公開了一種免語音喚醒方法、智能設(shè)備和計算機可讀存儲介質(zhì),其中方法包括:獲取嘴部圖像序列,從嘴部圖像序列中提取嘴部特征;確定嘴部特征對應(yīng)的音素值;計算音素值與設(shè)定的喚醒詞對應(yīng)的音素值之間的相似度,當(dāng)相似度大于設(shè)定的相似度閾值時,則喚醒智能設(shè)備。本發(fā)明的方法使用了圖像識別技術(shù),識別發(fā)出語音指令的人的嘴部圖像序列,根據(jù)嘴部圖像序列確定其對應(yīng)的音素值,計算該音素值與與設(shè)定的喚醒詞對應(yīng)的音素值之間的相似度,當(dāng)相似度大于設(shè)定的相似度閾值時,則喚醒智能設(shè)備。本發(fā)明降低了智能設(shè)備的誤判率,提升了用戶的無感交互體驗,語音交互更流暢自然。
技術(shù)領(lǐng)域
本申請涉及一種免語音喚醒方法、使用該喚醒方法的智能設(shè)備和存儲該喚醒方法的計算機可讀存儲介質(zhì),屬于圖像識別技術(shù)領(lǐng)域。
背景技術(shù)
語音識別技術(shù)在近些年取得了顯著的進(jìn)步,該技術(shù)已進(jìn)入工業(yè)、家電、智能家居等各個領(lǐng)域。包含喚醒詞的語音喚醒技術(shù)是語音識別技術(shù)中的一種形式,其不直接接觸硬件設(shè)備,通過包含喚醒詞的語音即可實現(xiàn)設(shè)備的喚醒或者運行。現(xiàn)有帶有揚聲器的智能語音設(shè)備,例如智能音箱、車載的手機架或者語音機器人等的播放打斷功能也采用了包含喚醒詞的語音喚醒技術(shù)進(jìn)行實現(xiàn),且現(xiàn)有應(yīng)用于智能語音設(shè)備的語音喚醒技術(shù)中的喚醒詞都是采用固定閾值的方式,即在智能語音設(shè)備的正喚醒率與誤喚醒率之間取一個平衡數(shù)值作為固定的喚醒詞閾值。在智能語音設(shè)備的工作過程中,例如在播放音樂或語音播報時,由于智能語音設(shè)備的揚聲器發(fā)岀的聲音會傳播到智能語音設(shè)備的麥克風(fēng)并被麥克風(fēng)采集,使得揚聲器發(fā)出的聲音會對智能語音設(shè)備的語音識別造成干擾。針對這種情況,智能語音設(shè)備通常會對揚聲器發(fā)出的聲音進(jìn)行回聲消除處理,但如果回聲消除不完善或者揚聲器到麥克風(fēng)的非線性失真太大則會導(dǎo)致出現(xiàn)回聲殘余過大的情況,而當(dāng)智能語音設(shè)備長時間處于具有過大的回聲殘余的環(huán)境中時,由于應(yīng)用于智能語音設(shè)備內(nèi)的喚醒詞閾值始終是固定不變的,這樣就會大大增加智能語音設(shè)備被回聲殘余誤喚醒的可能性。如果智能語音設(shè)備的麥克風(fēng)沒有收到用戶發(fā)出的包含喚醒詞的語音,但智能語音設(shè)備當(dāng)前的播放狀態(tài)卻因為殘余的回聲被打斷了,這樣便會大大降低用戶的使用體驗。
發(fā)明內(nèi)容
本申請的目的在于,提供一種免語音喚醒方法、智能設(shè)備和計算機可讀存儲介質(zhì),以解決現(xiàn)有技術(shù)中存在的喚醒方法易受干擾,存在誤判的技術(shù)問題。
本發(fā)明的第一實施例提供了一種免語音喚醒方法,包括:
獲取嘴部圖像序列,從所述嘴部圖像序列中提取嘴部特征;
確定所述嘴部特征對應(yīng)的音素值;
計算所述音素值與設(shè)定的喚醒詞對應(yīng)的音素值之間的相似度,當(dāng)所述相似度大于設(shè)定的相似度閾值時,則喚醒智能設(shè)備;
所述從所述嘴部圖像序列中提取嘴部特征,具體為:
利用2D卷積神經(jīng)網(wǎng)絡(luò)從所述嘴部圖像序列中提取嘴部運動的空間特征,得到嘴部運動的空間特征信息;
利用1D卷積神經(jīng)網(wǎng)絡(luò)從所述嘴部圖像序列中提取嘴部運動的時間特征,得到嘴部運動的時域特征信息;
利用多時空信息融合殘差網(wǎng)絡(luò)融合所述時域特征信息和所述空間特征信息,得到融合后的所述嘴部特征;
相應(yīng)地,確定所述嘴部特征對應(yīng)的音素值,具體為:
確定融合后的所述嘴部特征對應(yīng)的音素值。
優(yōu)選地,所述確定融合后的所述嘴部特征對應(yīng)的音素值,具體為:
利用融合后的所述嘴部特征,確定因素單元的識別概率結(jié)果;
將所述音素單元的識別概率結(jié)果輸入連接時序分類器,得到音素單元的分類結(jié)果;
采用引入注意力機制的解碼方法解碼所述音素單元的分類結(jié)果,得到所述嘴部特征對應(yīng)的音素值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于博智安全科技股份有限公司,未經(jīng)博智安全科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110019690.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





