[發明專利]一種應用于城市大腦的語音交互方法及系統有效

申請號：	202010626621.6	申請日：	2020-07-01
公開（公告）號：	CN111833869B	公開（公告）日：	2022-02-11
發明（設計）人：	何彬;谷雨明;趙麗麗;羅建萌;朱小敏;徐起	申請（專利權）人：	中關村科學城城市大腦股份有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/26;G10L15/02;G10L15/20;G10L15/16;G10L15/34;G10L17/00;G10L17/22;G10L13/04;G10L13/047
代理公司：	北京勁創知識產權代理事務所(普通合伙) 11589	代理人：	張鐵蘭
地址：	100081 北京市海淀區中關***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種應用于城市大腦語音交互方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種應用于城市大腦的語音交互方法，其特征在于，包括：

采集當前環境下的語音信號；

對所述語音信號進行預處理，以提取有效的語音片段；

利用動態閾值分析方法，判斷所述有效的語音片段中是否包含喚醒詞，并在確定存在喚醒詞時，識別并響應所述有效的語音片段中的語音交互指令；

所述動態閾值分析方法，包括：

對有效的語音片段進行傅里葉變換，以提取有效的語音片段的頻譜特征；

將所述有效的語音片段的頻譜特征送入預先訓練好的喚醒詞識別模型的同時，判斷所述有效的語音片段的后驗概率是否大于動態閾值T；

若所述有效的語音片段的后驗概率大于動態閾值T，則確定所述有效的語音片段中包含喚醒詞，并控制所述喚醒詞識別模型識別出所述喚醒詞；

所述閾值T根據以下方法進行確定：

根據經驗確定固定閾值T₀，并將T₀存儲在配置文件中；

計算當前時刻有效的語音片段的短時能量與緊鄰當前時刻的前兩個有效的語音片段的短時能量之和的比值，計為offset；

根據公式T＝T₀+offset，確定閾值T。

2.根據權利要求1所述的方法，其特征在于，所述對所述語音信號進行預處理，包括：

將所述語音信號轉換為音頻流數據；

對所述音頻流數據進行降噪處理，以獲取信噪比更高的音頻流數據；

對降噪處理后的音頻流數據進行分幀處理；

對分幀處理后的音頻流數據進行端點檢測，從而在連續的音頻流數據中檢測出有效的語音片段。

3.根據權利要求2所述的方法，其特征在于，所述對所述音頻流數據進行降噪處理，具體為：

采用最小均方誤差自適應濾波方法，對所述音頻流數據進行降噪處理。

4.根據權利要求1所述的方法，其特征在于，

控制所述喚醒詞識別模型識別出所述喚醒詞的同時，還包括：

提取所述喚醒詞的聲紋特征；

所述識別并響應所述語音片段中的語音交互指令，具體為：

判斷提取的聲紋特征是否與預存的聲紋特征相匹配，若是，識別并響應所述語音片段中的語音交互指令，否則，忽略所述語音交互指令。

5.根據權利要求4所述的方法，其特征在于，所述識別并響應所述語音片段中的語音交互指令，具體為：

將所述語音交互指令送入到預先訓練好的端到端語音識別模型，進行語音識別；

對語音識別出的文本，利用基于知識圖譜的智能對話系統進行自然語言處理，返回應答文本；

將返回的應答文本，輸入到預存的端到端語音合成模型，生成對應的音頻并通過播放設備進行回答。

6.根據權利要求5所述的方法，其特征在于，

所述端到端語音識別模型采用CNN+CTC模型，采用VGG16基本模型架構，13個卷積層，3個全連接層，其中三層全連接層用于實現注意力機制，損失函數采用CTC損失函數，網絡優化器采用Adam優化器。

7.根據權利要求5所述的方法，其特征在于，還包括：

利用強化學習的方法，采用增量式參數更新的方式，不斷優化所述端到端語音識別模型的參數。

8.一種應用于城市大腦的語音交互系統，其特征在于，包括：

采集模塊，用于采集當前環境下的語音信號；

預處理模塊，用于對所述語音信號進行預處理，以提取有效的語音片段；

響應模塊，用于利用動態閾值分析方法，判斷所述有效的語音片段中是否包含喚醒詞，并在確定存在喚醒詞時，識別并響應所述有效的語音片段中的語音交互指令；

所述動態閾值分析方法，包括：

對有效的語音片段進行傅里葉變換，以提取有效的語音片段的頻譜特征；

將所述有效的語音片段的頻譜特征送入預先訓練好的喚醒詞識別模型的同時，判斷所述有效的語音片段的后驗概率是否大于動態閾值T；

若所述有效的語音片段的后驗概率大于動態閾值T，則確定所述有效的語音片段中包含喚醒詞，并控制所述喚醒詞識別模型識別出所述喚醒詞；

所述閾值T根據以下方法進行確定：

根據經驗確定固定閾值T₀，并將T₀存儲在配置文件中；

計算當前時刻有效的語音片段的短時能量與緊鄰當前時刻的前兩個有效的語音片段的短時能量之和的比值，計為offset；

根據公式T＝T₀+offset，確定閾值T。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中關村科學城城市大腦股份有限公司，未經中關村科學城城市大腦股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010626621.6/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】