[發明專利]用于識別對話語音的方法、裝置以及可拆卸的拾音設備在審

申請號：	202111505670.5	申請日：	2021-12-10
公開（公告）號：	CN114203181A	公開（公告）日：	2022-03-18
發明（設計）人：	楊松;孟憲海;王福到;陳杰;李鑫;王凱	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L25/51;G10L17/00;G01S5/20;G06N20/00
代理公司：	北京英賽嘉華知識產權代理有限責任公司 11204	代理人：	王達佐;馬曉亞
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于識別對話語音方法裝置以及可拆卸設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種用于識別對話語音的方法，包括：

從預設的麥克風陣列獲取至少兩個說話人的對話語音；

對所述對話語音進行方位判決處理，生成目標數目個說話人角色；

將所述對話語音中與說話人角色對應的語音分別輸入至預先訓練的所述目標數目個語音解碼器，生成語音識別文字。

2.根據權利要求1所述的方法，其中，所述預設的麥克風陣列包括環形陣列；以及

所述對所述對話語音進行方位判決處理，生成目標數目個說話人角色，包括：

對于所述對話語音中的語音片段，根據該語音片段在所述麥克風陣列中的能量分布確定說話人的方向；

根據所生成的說話人的方向的數量，生成所述目標數目個說話人角色。

3.根據權利要求2所述的方法，其中，所述根據該語音片段在所述麥克風陣列中的能量分布確定說話人的方向，包括：

根據該語音片段在所述麥克風陣列中的能量分布確定說話人的方位所歸屬的所述麥克風陣列的扇區；

將歸屬于同一個預設扇區的語音片段確定為同一個說話人角色對應的語音。

4.根據權利要求2所述的方法，其中，所述根據該語音片段在所述麥克風陣列中的能量分布確定說話人的方向，包括：

確定呈環形陣列排列的所述麥克風陣列中所接收到的該語音片段中聲音的能量最高的第一數目個麥克風的位置；

根據所確定的第一數目個麥克風的位置的朝向確定該語音片段對應的說話人的方向。

5.根據權利要求2所述的方法，其中，所述根據所生成的說話人的方向的數量，生成所述目標數目個說話人角色，包括：

將所生成的說話人的方向進行聚類，生成第二數目個聚類后的方向；

將對應于同一個所述聚類后的方向的語音片段的說話人確定為一個說話人角色，生成所述目標數目個說話人角色。

6.一種用于識別對話語音的裝置，包括：

獲取單元，被配置成從預設的麥克風陣列獲取至少兩個說話人的對話語音；

生成單元，被配置成對所述對話語音進行方位判決處理，生成目標數目個說話人角色；

識別單元，被配置成將所述對話語音中與說話人角色對應的語音分別輸入至預先訓練的所述目標數目個語音解碼器，生成語音識別文字。

7.根據權利要求6所述的裝置，其中，所述預設的麥克風陣列包括環形陣列；以及

所述生成單元，包括：

確定模塊，被配置成對于所述對話語音中的語音片段，根據該語音片段在所述麥克風陣列中的能量分布確定說話人的方向；

生成模塊，被配置成根據所生成的說話人的方向的數量，生成所述目標數目個說話人角色。

8.根據權利要求7所述的裝置，其中，所述確定模塊進一步被配置成：

根據該語音片段在所述麥克風陣列中的能量分布確定說話人的方位所歸屬的所述麥克風陣列的扇區；

將歸屬于同一個預設扇區的語音片段確定為同一個說話人角色對應的語音。

9.根據權利要求7所述的裝置，其中，所述確定模塊被進一步配置成：

確定呈環形陣列排列的所述麥克風陣列中所接收到的該語音片段中聲音的能量最高的第一數目個麥克風的位置；

根據所確定的第一數目個麥克風的位置的朝向確定該語音片段對應的說話人的方向。

10.根據權利要求7所述的裝置，其中，所述生成模塊被進一步配置成：

將所生成的說話人的方向進行聚類，生成第二數目個聚類后的方向；

將對應于同一個所述聚類后的方向的語音片段的說話人確定為一個說話人角色，生成所述目標數目個說話人角色。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司，未經北京百度網訊科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111505670.5/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種用于線纜加工用的高效斷切設備
下一篇：顯示面板、顯示面板的制作方法以及顯示裝置

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】