[發明專利]端到端語音喚醒方法、裝置及計算機設備在審

申請號：	201810763704.2	申請日：	2018-07-12
公開（公告）號：	CN110782898A	公開（公告）日：	2020-02-11
發明（設計）人：	姚光超	申請（專利權）人：	北京搜狗科技發展有限公司;搜狗(杭州)智能科技有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/22;G10L15/06;G10L17/00
代理公司：	11510 北京華圣典睿知識產權代理有限公司	代理人：	趙景平
地址：	100084 北京市海淀區中關***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	目標發音喚醒概率聲學模型聲學特征語音幀語音計算機設備位置計算端到端逐幀輸出檢測
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種端到端語音喚醒方法，其特征在于，所述方法包括：

接收待檢測語音；

依次提取每個語音幀的聲學特征；

將提取的聲學特征輸入聲學模型，得到所述聲學模型輸出的每個語音幀中各目標發音單元的概率；

逐幀計算各目標發音單元的累積概率，并確定各目標發音單元的起始位置和結束位置；

根據所述累積概率及起始位置和結束位置計算各目標發音單元的長度及平均概率；

根據各目標發音單元的長度和/或平均概率進行喚醒操作。

2.根據權利要求1所述的方法，其特征在于，所述聲學模型為基于喚醒詞中各目標發音單元的端到端聲學模型。

3.根據權利要求2所述的方法，其特征在于，在所述喚醒詞的前后各添加一個靜音輸出。

4.根據權利要求3所述的方法，其特征在于，所述逐幀計算各目標發音單元的累積概率包括：

對于每個目標發音單元，將上一幀該目標發音單元的累積概率和當前幀前一目標發音單元的累積概率這兩者中的最大值，加上當前幀該目標發音單元的概率，作為當前幀該目標發音單元的累積概率。

5.根據權利要求3所述的方法，其特征在于，所述根據所述累積概率及起始位置和結束位置計算各目標發音單元的長度及平均概率包括：

將所述目標發音單元的結束位置與起始位置相減得到所述目標發音單元的長度；

將對應所述結束位置的累積概率與對應所述起始位置的累積概率相減，然后除以所述目標發音單元的長度，得到所述目標發音單元的平均概率。

6.根據權利要求1至5任一項所述的方法，其特征在于，所述根據各目標發音單元的長度和/或平均概率進行喚醒操作包括：

如果在設定區間內各目標發音單元的長度均大于設定的長度閾值，則進行喚醒操作；或者

如果在設定區間內各目標發音單元的平均概率均大于設定的第一閾值，則進行喚醒操作。

7.根據權利要求1至5任一項所述的方法，其特征在于，所述方法還包括：

確定在設定區間內各目標發音單元的最大概率，并根據所述最大概率計算所有目標發音單元的最大概率平均值；

所述根據各目標發音單元的長度和/或平均概率進行喚醒操作包括：

根據各目標發音單元的長度、設定區間內各目標發音單元的最大概率、最大概率平均值、平均概率這四者中的任意兩個或多個參數進行喚醒操作。

8.一種端到端語音喚醒裝置，其特征在于，所述裝置包括：

接收模塊，用于接收待檢測語音；

特征提取模塊，用于依次提取每個語音幀的聲學特征；

聲學檢測模塊，用于將提取的聲學特征輸入聲學模型，得到所述聲學模型輸出的每個語音幀中各目標發音單元的概率；

第一計算模塊，用于逐幀計算各目標發音單元的累積概率，并確定各目標發音單元的起始位置和結束位置；

第二計算模塊，用于根據所述累積概率及起始位置和結束位置計算各目標發音單元的長度及平均概率；

喚醒處理模塊，用于根據各目標發音單元的長度和/或平均概率進行喚醒操作。

9.一種計算機設備，其特征在于，包括：一個或多個處理器、存儲器；

所述存儲器用于存儲計算機可執行指令，所述處理器用于執行所述計算機可執行指令，以實現如權利要求1至7任一項所述的方法。

10.一種可讀存儲介質，其上存儲有指令，所述指令被執行以實現如權利要求1至7任一項所述的方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司;搜狗(杭州)智能科技有限公司，未經北京搜狗科技發展有限公司;搜狗(杭州)智能科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810763704.2/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種基于自然語義編碼的語音終端通信方法及系統
下一篇：信息處理裝置、存儲介質及信息處理方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】