[發明專利]話音認證和語音識別系統及方法有效

申請號：	201380016170.2	申請日：	2013-01-23
公開（公告）號：	CN104185868B	公開（公告）日：	2017-08-22
發明（設計）人：	哈比卜·E·泰歐哈米;阿米特·薩達南德·馬勒高恩卡;雷努卡·阿米特·馬勒高恩卡;克萊夫·戴維·薩默菲爾德	申請（專利權）人：	澳爾亞有限公司
主分類號：	G10L17/14	分類號：	G10L17/14
代理公司：	北京派特恩知識產權代理有限公司11270	代理人：	浦彩華,武晨燕
地址：	澳大利亞新***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	話音認證語音識別系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及作為話音認證系統的一部分而運行的語音識別系統的自動調諧和配置。結果是一種既識別個人又識別其語音的系統。

背景技術

制作有效的語音識別系統的關鍵是創建聲學模型、語法和語言模型，這些模型使得底層語音識別技術能夠在應用內可靠地識別正在說的內容并且給定語音樣本的上下文的情況下能夠弄清楚或理解該語音。創建聲學模型、語法和語言模型的過程包含收集語音樣本(通常還稱為話音樣本)的數據庫，該數據庫代表說話者與語音識別系統交互的方式。為了創建這些聲學模型、語法和語言模型，需要將數據庫中的每個語音樣本進行分段并將其標注成其單詞或音素組成部分。然后就對所有說話者(比如像所有說單詞“二(two)”的說話者)的全部常見組成部分進行編譯和處理以創建此組成部分的單詞(或音素)聲學模型。在基于大詞匯音素的系統中，還需要重復該過程以針對此語言學市場創建語言和口音特定的模型和語法。通常，產生可以準確地識別語音的聲學模型需要(來自每種性別的)每個單詞或音素的約1,000至2,000個示例。

針對任何語言學市場開發語音識別系統是一個數據驅動的過程。在不存在代表此市場特定的語言和口音的語音數據的情況下，不能產生適當的聲學、語法和語言模型。因此，獲得必要的語音數據(假設其是可獲得的)以及針對新的語言學市場創建適當的語言和口音特定的模型可能特別耗時并非常昂貴。

如果提供了一種可以針對任何語言學視市場用有成本效益的方式自動配置的語音識別系統，這將是有利的。

發明內容

根據本發明的一個第一方面，提供了一種用于配置語音識別系統的方法，該方法包括：

獲得由一個話音認證系統在一個話音認證過程中所利用的一個語音樣本；

對該語音樣本進行處理以生成與該語音樣本相關聯的多個語音單元的多個聲學模型；以及

對這些聲學模型進行存儲以便隨后由該語音識別系統用作一個語音識別過程的一部分。

在一個實施例中，這些語音單元包括三音子、雙音子、聚類狀態、音素、單詞或短語。

在一個實施例中，該方法進一步包括：對與該語音樣本相關聯的語音內容數據進行評估從而為這些語音單元中的每個語音單元確定一個可聞標識符，以及基于所確定的該可聞標識符對這些聲學模型進行分類。

在一個實施例中，該方法進一步包括基于從多個進一步獲得和處理的語音樣本所生成的多個聲學模型更新所存儲的這些聲學模型。

在一個實施例中，該方法進一步包括確定所存儲的這些聲學模型中的每個聲學模型的一個質量，以及繼續更新這些聲學模型直到該質量達到一個預先定義的閾值。

在一個實施例中，這些語音樣本由該認證系統的不同用戶在向其登記的過程中提供。

在一個實施例中，該方法進一步包括將這些聲學模型存儲在一個通用語音識別數據庫中。

在一個實施例中，該方法進一步包括僅獲得與選自包括以下各項的組的一個或多個預先定義的語音輪廓相關聯的多個語音樣本：語言、性別、信道介質、語法。

在一個實施例中，這些語音樣本由同一用戶或者在向該認證系統登記的過程中或者作為隨后的一次認證會話的一部分提供。

在一個實施例中，這些聲學模型存儲在該用戶特定的一個數據庫中，并且其中，自動地訪問該數據庫以響應于該用戶向該認證系統認證自己來執行該語音識別過程。

根據本發明的一個第二方面，提供了一種組合式語音識別和話音認證方法，包括利用一個用戶的一次話音認證確定的一個輸出設置一種語音識別功能的一個參數，以便隨后由該用戶識別一種言語。

在一個實施例中，利用該輸出選擇多個聲學模型數據庫中的一個，以供該語音識別功能在識別該用戶的言語時使用，每個聲學模型數據庫包含一組以不同的方式訓練的聲學模型。

在一個實施例中，該數據庫包括多個語音單元的多個聲學模型，已經使用源自該用戶或者在向該認證系統登記的過程中或者在隨后的一次認證會話的過程中所提供的言語的話音數據對這些聲學模型進行了訓練。

在一個實施例中，該數據庫包括多個語音單元的多個聲學模型，已經利用一個或多個具有一個共享的話音輪廓的其他用戶向該用戶所提供的多個語音樣本對這些聲學模型進行了訓練。

根據本發明的一個第三方面，提供了一種實施計算機程序的計算機可讀介質，該計算機程序包括一個或多個用于控制一個計算機系統實施如上文根據該第一方面所述的方法的指令。

根據本發明的一個第四方面，提供了一種語音識別系統，包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于澳爾亞有限公司，未經澳爾亞有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201380016170.2/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】