[發明專利]基于角色識別的語音識別系統有效

申請號：	202110347499.3	申請日：	2021-03-31
公開（公告）號：	CN113096669B	公開（公告）日：	2022-05-27
發明（設計）人：	黃星耀;熊倩;王楓;王學春;張志亮	申請（專利權）人：	重慶風云際會智慧科技有限公司
主分類號：	G10L17/00	分類號：	G10L17/00;G10L17/02;G10L17/14;G10L15/26;G06K9/62
代理公司：	重慶強大凱創專利代理事務所(普通合伙) 50217	代理人：	趙玉乾
地址：	400000 重慶市璧山區璧泉街道***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于角色識別語音系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及語音數據處理技術領域，具體涉及一種基于角色識別的語音識別系統，包括：采集模塊，用于采集談話人與被談話人的談話語音；提取模塊，用于根據談話語音提取聲紋特征；聚類模塊，用于根據第一特征與第二特征將談話語音分為談話人對應的第一語音與被談話人對應的第二語音；糾正模塊，用于判斷第一時延的標準差與第二時延的標準差是否均小于時延閾值：如果第一時延的標準差與第二時延的標準差均小于時延閾值，發送輸出結果的指令到輸出模塊；反之，發送重新聚類的指令到聚類模塊；輸出模塊，用于輸出第一語音與第二語音。本發明解決了通過聲紋特征進行說話人角色識別準確率低的技術問題。

技術領域

本發明涉及語音數據處理技術領域，具體涉及一種基于角色識別的語音識別系統。

背景技術

目前，語音識別技術逐步應用到法庭庭審或會議過程中，對整個法庭庭審或會議過程以語音的形式進行記錄。在法庭庭審或會議過程結束以后，再對語音中的內容進行分析，摘取有效的信息，最后形成稿件。其中，說話人角色識別或分離是語音處理過程的核心步驟，只有進行將說話人角色識別或分離后才可以知道哪些人具體說了哪些具體的內容。

比如說，中國專利CN111105801A公開了一種角色語音分離方法，包括步驟：建立數據信息庫；在檢測到用戶對話時，對于對話中的每句話進行識別，用戶包括用戶組a和用戶組b；對識別的結果提取聲紋特征，輸出提取結果；獲取提取結果中屬于用戶組a的聲紋特征并存入數據信息庫中；其中，在檢測到用戶對話時，對于對話中的每句話進行識別，包括：獲取用戶的對話內容；提取用戶組a的身份信息并存儲到數據信息庫中以用于區別用戶組a和用戶組b；將對話內容通過聲紋引擎進行識別分類，分為用戶組a的m個聲音片段集和用戶組b的n個聲音片段集。

在上述技術方案中，基于說話人的聲紋特征進行角色識別、分離，要想僅通過聲紋特征將說話人的角色識別、分離開來，需要確保談話語音是在良好的錄音環境中進行錄制的。但是，在實際的談話場景下，比如法庭庭審，由于法庭空間狹小，聲音的傳播過程受空間大小的影響較大，以及會在空間中進行反射、衍射，甚至除了直達信號還有多徑信號疊加進而出現混響，導致角色識別的準確率低。

發明內容

本發明提供一種基于角色識別的語音識別系統，解決了通過聲紋特征進行說話人角色識別準確率低的技術問題。

本發明提供的基礎方案為：基于角色識別的語音識別系統，包括：

采集模塊，用于采集談話人與被談話人的談話語音；

提取模塊，用于根據談話語音提取聲紋特征；

聚類模塊，用于對聲紋特征進行聚類，將聲紋特征分為談話人對應的第一特征與被談話人對應的第二特征，并根據第一特征與第二特征將談話語音分為談話人對應的第一語音與被談話人對應的第二語音；

糾正模塊，用于采用TDOA算法計算第一語音中各個音頻片段的第一時延，采用TDOA算法計算第二語音中各個音頻片段的第二時延，計算第一時延的標準差與第二時延的標準差，并判斷第一時延的標準差與第二時延的標準差是否均小于時延閾值：如果第一時延的標準差與第二時延的標準差均小于時延閾值，發送輸出結果的指令到輸出模塊；反之，發送重新聚類的指令到聚類模塊；

輸出模塊，用于輸出第一語音與第二語音。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于重慶風云際會智慧科技有限公司，未經重慶風云際會智慧科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110347499.3/2.html，轉載請聲明來源鉆瓜專利網。