[發(fā)明專利]語(yǔ)音喚醒方法及裝置在審

申請(qǐng)?zhí)枺?/td>	202010634922.3	申請(qǐng)日：	2020-07-03
公開(kāi)（公告）號(hào)：	CN111883117A	公開(kāi)（公告）日：	2020-11-03
發(fā)明（設(shè)計(jì)）人：	楊曉帆;馮大航;陳孝良	申請(qǐng)（專利權(quán)）人：	北京聲智科技有限公司
主分類號(hào)：	G10L15/22	分類號(hào)：	G10L15/22
代理公司：	北京竹辰知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11706	代理人：	聶鵬
地址：	100080 北京市***	國(guó)省代碼：	北京;11
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	語(yǔ)音喚醒方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書(shū)】：

本公開(kāi)公開(kāi)了一種語(yǔ)音喚醒方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。其中方法包括：獲取語(yǔ)音信號(hào)；將所述語(yǔ)音信號(hào)輸入第一模型，通過(guò)所述第一模型輸出所述語(yǔ)音信號(hào)中每一幀音素的第一后驗(yàn)概率；將所述第一后驗(yàn)概率滿足第一喚醒條件的音素對(duì)應(yīng)的語(yǔ)音信號(hào)作為喚醒語(yǔ)音段；將所述喚醒語(yǔ)音段的語(yǔ)譜圖和后驗(yàn)概率圖輸入第二模型，通過(guò)所述第二模型輸出所述喚醒語(yǔ)音段中每一幀音素的第二后驗(yàn)概率；若所述第二后驗(yàn)概率滿足第二喚醒條件，則進(jìn)行喚醒操作。本公開(kāi)實(shí)施例通過(guò)二次喚醒確認(rèn)，可以減少誤喚醒率，提高喚醒準(zhǔn)確率。

技術(shù)領(lǐng)域

本公開(kāi)涉及人工智能技術(shù)領(lǐng)域，特別是涉及一種語(yǔ)音喚醒方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)

隨著人工智能的快速發(fā)展，智能設(shè)備在大眾中的普及度越來(lái)越高，關(guān)于各家廠商智能設(shè)備(例如智能音箱)的評(píng)測(cè)也越來(lái)越多，智能設(shè)備的初級(jí)體驗(yàn)已經(jīng)不足以滿足廣大用戶，這也就帶來(lái)了智能設(shè)備優(yōu)化的需求。

在現(xiàn)有技術(shù)中，通常通過(guò)語(yǔ)音方式實(shí)現(xiàn)交互，例如智能音箱、手機(jī)、平板等，但在用戶的對(duì)其進(jìn)行喚醒的過(guò)程中，經(jīng)常會(huì)出現(xiàn)誤喚醒率較高的問(wèn)題。

發(fā)明內(nèi)容

提供該發(fā)明內(nèi)容部分以便以簡(jiǎn)要的形式介紹構(gòu)思，這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。該發(fā)明內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征，也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。

本公開(kāi)解決的技術(shù)問(wèn)題是提供一種語(yǔ)音喚醒方法，以至少部分地解決現(xiàn)有技術(shù)中誤喚醒率較高的技術(shù)問(wèn)題。此外，還提供一種語(yǔ)音喚醒裝置、語(yǔ)音喚醒硬件裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和語(yǔ)音喚醒終端。

為了實(shí)現(xiàn)上述目的，根據(jù)本公開(kāi)的一個(gè)方面，提供以下技術(shù)方案：

一種語(yǔ)音喚醒方法，包括：

獲取語(yǔ)音信號(hào)；

將所述語(yǔ)音信號(hào)輸入第一模型，通過(guò)所述第一模型輸出所述語(yǔ)音信號(hào)中每一幀音素的第一后驗(yàn)概率；

將所述第一后驗(yàn)概率滿足第一喚醒條件的音素對(duì)應(yīng)的語(yǔ)音信號(hào)作為喚醒語(yǔ)音段；

將所述喚醒語(yǔ)音段的語(yǔ)譜圖和后驗(yàn)概率圖輸入第二模型，通過(guò)所述第二模型輸出所述喚醒語(yǔ)音段中每一幀音素的第二后驗(yàn)概率；

若所述第二后驗(yàn)概率滿足第二喚醒條件，則進(jìn)行喚醒操作。

進(jìn)一步的，所述將所述第一后驗(yàn)概率滿足第一喚醒條件的音素對(duì)應(yīng)的語(yǔ)音信號(hào)作為喚醒語(yǔ)音段，包括：

若所述第一后驗(yàn)概率滿足第一喚醒條件，則記錄喚醒時(shí)間點(diǎn)；

確定所述語(yǔ)音信號(hào)中喚醒詞的起始時(shí)間點(diǎn)；

根據(jù)所述喚醒時(shí)間點(diǎn)和所述起始時(shí)間點(diǎn)確定喚醒長(zhǎng)度，并確定喚醒語(yǔ)音段。

進(jìn)一步的，所述確定所述語(yǔ)音信號(hào)中喚醒詞的起始時(shí)間點(diǎn)，包括：

確定所述喚醒詞的第一個(gè)字的各個(gè)音素在所述喚醒語(yǔ)音段的每一幀中的后驗(yàn)概率；

將所述第一個(gè)字的各個(gè)音素的后驗(yàn)概率相加，得到所述第一個(gè)字的各個(gè)音素在每一幀中的概率和；

將所述概率和最大值對(duì)應(yīng)的第一幀數(shù)對(duì)應(yīng)的時(shí)間點(diǎn)作為起始時(shí)間點(diǎn)。

進(jìn)一步的，所述方法還包括：

計(jì)算所述喚醒語(yǔ)音段每個(gè)時(shí)間點(diǎn)的頻譜能量密度；

對(duì)所有的頻譜能量密度進(jìn)行歸一化處理，得到所述喚醒語(yǔ)音段的語(yǔ)譜圖。

進(jìn)一步的，所述方法還包括：

將大量已知喚醒語(yǔ)音段的語(yǔ)譜圖和后驗(yàn)概率圖作為訓(xùn)練數(shù)據(jù)，訓(xùn)練得到圖片識(shí)別模型，將所述圖片識(shí)別模型作為第二模型；其中，已知喚醒語(yǔ)音段的后驗(yàn)概率圖與語(yǔ)譜圖一一對(duì)應(yīng)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京聲智科技有限公司，未經(jīng)北京聲智科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010634922.3/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種大尺寸投影的投影鏡頭及使用其的投影系統(tǒng)
下一篇：一種汽車尾門電動(dòng)關(guān)閉防夾控制方法

同類專利

專利分類

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)，例如對(duì)說(shuō)話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】