[發(fā)明專利]誤喚醒音頻的獲取方法和裝置在審

申請(qǐng)?zhí)枺?/td>	202010981082.8	申請(qǐng)日：	2020-09-17
公開（公告）號(hào)：	CN112114886A	公開（公告）日：	2020-12-22
發(fā)明（設(shè)計(jì)）人：	李旭;杜霜霜	申請(qǐng)（專利權(quán)）人：	北京百度網(wǎng)訊科技有限公司
主分類號(hào)：	G06F9/4401	分類號(hào)：	G06F9/4401;G10L15/04;G10L15/22;G10L17/18
代理公司：	北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204	代理人：	王達(dá)佐;馬曉亞
地址：	100085 北京市***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	喚醒音頻獲取方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種誤喚醒音頻的獲取方法，所述方法包括：

采集播放的音頻，作為待處理音頻；

將所述待處理音頻輸入到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型，得到所述待處理音頻的近似喚醒音頻片段在所述待處理音頻中的位置，其中，所述深度神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測(cè)在輸入的音頻中的、喚醒詞音頻的近似音頻片段的位置；

基于所述近似喚醒音頻片段的位置，在所述待處理音頻中確定誤喚醒片段，并生成包括所述誤喚醒片段的誤喚醒片段集合。

2.根據(jù)權(quán)利要求1所述的方法，其中，所述位置包括起點(diǎn)和終點(diǎn)；

所述基于所述近似喚醒音頻片段的位置，在所述待處理音頻中確定誤喚醒片段，包括：

在所述近似喚醒音頻片段的起點(diǎn)，在所述待處理音頻中向在先的方向確定第一預(yù)設(shè)時(shí)長(zhǎng)的音頻片段的起點(diǎn)為目標(biāo)起點(diǎn)；

在所述近似喚醒音頻片段的終點(diǎn)，在所述待處理音頻中向在后的方向確定第二預(yù)設(shè)時(shí)長(zhǎng)的音頻片段的終點(diǎn)為目標(biāo)終點(diǎn)；

提取從所述目標(biāo)起點(diǎn)至所述目標(biāo)終點(diǎn)所對(duì)應(yīng)的音頻片段，將所提取的音頻片段確定為誤喚醒片段。

3.根據(jù)權(quán)利要求1或2所述的方法，其中，所述得到所述待處理音頻的近似喚醒音頻片段在所述待處理音頻中的位置，包括：

得到從所述深度神經(jīng)網(wǎng)絡(luò)模型輸出的、所述近似喚醒音頻片段的喚醒置信度和在所述待處理音頻中的位置，其中，所述近似喚醒音頻片段針對(duì)喚醒詞音頻的喚醒置信度高于所述深度神經(jīng)網(wǎng)絡(luò)模型的置信度閾值。

4.根據(jù)權(quán)利要求3所述的方法，其中，所述生成包括所述誤喚醒片段的誤喚醒片段集合，包括：

將各個(gè)誤喚醒片段進(jìn)行拼接，生成包括拼接結(jié)果的誤喚醒片段集合；以及

所述方法還包括：

響應(yīng)于輸出的近似喚醒音頻片段的位置的數(shù)量小于目標(biāo)數(shù)量閾值，調(diào)低所述置信度閾值，其中，所述目標(biāo)數(shù)量閾值與所述待處理音頻的時(shí)長(zhǎng)相關(guān)聯(lián)；

將所述待處理音頻重新輸入到置信度閾值調(diào)低后的深度神經(jīng)網(wǎng)絡(luò)模型，得到近似喚醒音頻片段在所述待處理音頻中的位置和喚醒置信度，基于該近似喚醒音頻片段的位置，確定誤喚醒片段，并將該誤喚醒片段進(jìn)行拼接，利用該拼接結(jié)果更新所述誤喚醒片段集合，其中，所述誤喚醒片段集合中各個(gè)誤喚醒片段的拼接結(jié)果的時(shí)長(zhǎng)大于目標(biāo)時(shí)長(zhǎng)。

5.根據(jù)權(quán)利要求3所述的方法，其中，所述方法還包括：

獲取在多個(gè)角度擺放的音箱播放所述誤喚醒片段集合對(duì)被測(cè)設(shè)備的喚醒結(jié)果；

若在所述喚醒結(jié)果中，喚醒了所述被測(cè)設(shè)備的誤喚醒片段的數(shù)量達(dá)到了指定數(shù)量閾值，確定所述誤喚醒片段集合為有效集合，其中，所述指定數(shù)量閾值與所述誤喚醒片段集合中所包括的誤喚醒片段的數(shù)量相關(guān)聯(lián)；

若在所述喚醒結(jié)果中，喚醒了所述被測(cè)設(shè)備的誤喚醒片段的數(shù)量未達(dá)到所述指定數(shù)量閾值，確定所述誤喚醒片段集合為無(wú)效集合。

6.根據(jù)權(quán)利要求5所述的方法，其中，所述方法還包括：

在確定所述誤喚醒片段集合為無(wú)效集合的情況下，調(diào)高所述置信度閾值。

7.一種誤喚醒音頻的獲取裝置，所述裝置包括：

獲取單元，被配置成采集播放的音頻，作為待處理音頻；

預(yù)測(cè)單元，被配置成將所述待處理音頻輸入到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型，得到所述待處理音頻的近似喚醒音頻片段在所述待處理音頻中的位置，其中，所述深度神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測(cè)在輸入的音頻中的、喚醒詞音頻的近似音頻片段的位置；

生成單元，被配置成基于所述近似喚醒音頻片段的位置，在所述待處理音頻中確定誤喚醒片段，并生成包括所述誤喚醒片段的誤喚醒片段集合。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010981082.8/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種冷水輥和全自動(dòng)熱熔膠復(fù)合機(jī)
下一篇：一種數(shù)據(jù)處理方法及裝置

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F9-00 程序控制裝置，例如，控制器
G06F9-02 .應(yīng)用有線連接的，例如，插頭板
G06F9-04 .應(yīng)用僅含程序指令的記錄載體的
G06F9-06 .應(yīng)用存入的程序的，即應(yīng)用處理設(shè)備的內(nèi)部存儲(chǔ)來(lái)接收程序并保持程序的
G06F9-22 ..微控制或微程序裝置
G06F9-30 ..執(zhí)行機(jī)器指令的裝置，例如指令譯碼

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】