[發明專利]一種基于說話人向量復用的語音識別系統及方法有效
| 申請號: | 202011312979.8 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112420054B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 秦艷姣 | 申請(專利權)人: | 湖北第二師范學院 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30;G10L15/02 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 馬帥 |
| 地址: | 430205 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 說話 向量 語音 識別 系統 方法 | ||
本發明提供一種基于說話人向量復用的語音識別系統,包括終端設備、說話人向量提取器、說話向量云緩存器、云端語音識別服務器和語音識別引擎,終端設備、說話人向量提取器、說話向量云緩存器和語音識別引擎分別與云端語音識別服務器連接。本發明的有益效果:本發明通過對說話人向量進行復用,并在語音識別引擎識別前通過云端語音識別服務器對終端說話人向量和云端說話人向量進行融合,從而提高語音識別引擎識別率,解決因提取的說話人向量的精度不高導致語音開始部分的識別率不高的問題。
技術領域
本發明涉及語音處理技術領域,尤其涉及一種基于說話人向量復用的語音識別系統及方法。
背景技術
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition(ASR)。它的目標是將包含在語音信號中的內容轉換為計算機可讀的輸入,例如文本序列等。目前業界主流的語音識別的方法包括基于混合模型(Hybird)的方法以及基于端到端模型(End-to-End)的方法。
基于混合模型的語音識別引擎,一般由聲學模型和語言模型兩部分構成。聲學模型的輸入是按固定時間長度,一般10~30毫秒,分割的原始語音幀序列,輸出每一幀語音對應到聲學建模單元的概率,普通話識別常用的建模單元是聲韻母。聲學模型通常使用深度神經網絡(DNN)來實現,一個簡單的聲學模型結構可以如附圖1。語言模型的作用是給出不同文本序列的語言得分。聲學模型和語言模型一起,可以將輸入的語音,轉換成一系列可能的候選文本,每個文本序列給出相應的概率值。
基于端到端的語音識別模型,不單獨區分聲學模型和語言模型,通過一個深度神經網絡來整體建模,直接接受輸入的語音,輸出文本序列。端到端的模型比較典型的是google提出的LAS模型和facebook提出的基于transformer的模型。
相比端到端的模型,基于混合模型的語音識別,因為容易實現流式識別(邊說話邊出識別結果),容易做熱詞修復(新出現的詞匯需要能識別出來),所以雖然端到端的模型在識別率上有優勢,但是基于混合模型的語音識別,仍然在業界被廣泛使用。
無論是端到端的語音識別模型,還是混合模型,都需要通過大量的語音識別訓練數據,來訓練模型。模型訓練好之后就可以投入實際使用,接收輸入的測試數據語音,返回識別的文本序列。在實際使用語音識別中,影響語音識別率的一個重要因素是訓練數據與測試數據的不匹配問題(mismatch)。這種不匹配來自兩個方面,一方面來自于說話人的差異,不同的說話人說同樣的內容,音色有差異。另一方面來自于信道的差異,比如同一個人,通過固定電話說話的聲音,和面對面說話的聲音,聽起來差異很大。
為了解決這個問題,很多方法被提出來,目前被廣泛使用的方法是說話人自適應(Speaker Adaptation),在中國專利“CN105895104A說話人自適應識別方法及系統”中也使用了類似方法。說話人自適應的主要步驟是在訓練聲學模型網絡時,給到網絡的輸入,除了當前時刻的語音特征外,還增加了說話人向量(speaker embedding),如附圖2所示。說話人向量是是通過說話人提取器,針對一段語音獲取的一個固定維度的vector,一般200~400維,用來代表說話人。當兩段聲音聽起來像是同一個人說的時(說的內容可以不一樣),兩段語音分別提取出來的說話人向量,在向量空間里的距離會比較近,反之比較遠。這樣,聲學模型網絡,就能夠學到不同說話人發相同語音時的聲學特征差異。目前主流的說話人向量包含了基于聯合因子分析的i-vector和基于神經網絡的x-vector方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北第二師范學院,未經湖北第二師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011312979.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:氫能車輛燃料電池保溫系統、方法、電子設備及存儲介質
- 下一篇:調節性多核苷酸





