[發明專利]使用具有詞歷史的實時詞網格生成的自動語音識別的系統和方法有效
| 申請號: | 201580047908.0 | 申請日: | 2015-09-09 |
| 公開(公告)號: | CN106663423B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | J·奧費;G·施特默爾 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08 |
| 代理公司: | 北京尚誠知識產權代理有限公司 11322 | 代理人: | 龍淳 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 具有 歷史 實時 網格 生成 自動 語音 識別 系統 方法 | ||
本發明涉及使用具有詞歷史的實時詞網格生成的自動語音識別的系統、制品和方法。
相關申請
本申請要求2014年10月6日提交的題為“SYSTEM AND METHOD OF AUTOMATICSPEECH RECOGNITION USING ON-THE-FLY WORD LATTICE GENERATION WITH WORDHISTORIES(使用具有詞歷史的實時詞網格生成的自動語音識別的系統和方法)”的美國專利申請No.14/506,844的權益。
背景技術
隨著越來越多的基于計算機的設備使用語音識別來接收來自用戶的命令以便執行某些動作,以及將語音轉換為文本用于聽寫應用或者甚至在一個或兩個方向上交換信息的情況下保持與用戶的對話,語音識別系統或自動語音識別器(ASR)變得越來越重要。這樣的系統可以是取決于說話者的,其中通過使用戶重復詞來訓練系統,或不取決于說話者的,其中任何人都可以提供立即識別的詞。一些系統還可以經配置理解一組固定的單個詞命令,例如用于操作理解術語呼叫或應答的移動電話,或者例如用于簡單數據輸入電話呼叫。其他ASR使用自然語言理解(NLU)模塊,該自然語言理解(NLU)模塊理解語法和詞的定義以從話語(所說的詞或句子)的上下文識別詞以用于更復雜的對話或信息交換。為了在對話系統中集成自動語音識別器(ASR)與自然語言理解(NLU)模塊,通常需要置信度測量和/或替代結果。生成該數據的一種流行的方式是創建詞網格,即可能的詞假設的網絡。然而,詞網格的生成可能會減慢語音識別過程,導致相對低效的過程。
另外,詞網格通常在第二步驟中從在語音解碼期間實時生成的狀態或音素網格中構建。由于狀態和音素網格可以變得相對較大,并且通常顯著地大于詞網格,所以這種方法需要大量的RAM。更有效的系統是期望的。
附圖說明
在附圖中通過示例而非限制的方式示出本文描述的材料。為了示出的簡單和清楚,圖中所示的元件不一定按比例繪制。例如,為了清楚起見,一些元件的尺寸可以相對于其他元件被放大。進一步地,在認為適當的情況下,在圖中重復附圖標記以指示對應或類似的元件。在圖中:
圖1是示出自動語音識別系統的示意圖;
圖2是使用詞歷史生成詞網格的語音識別過程的流程圖;
圖3A至圖3B是使用詞歷史生成詞網格的語音識別過程的詳細流程圖;
圖4是用于語音解碼的示例加權有限狀態變換器(WFST)的圖示;
圖5是包括使用來自圖4的WFST的中間詞網格的示例靜態和動態搜索空間的圖示;
圖6是示例靜態和動態搜索空間的另一個圖示;
圖7是示例靜態和動態搜索空間的另一個圖示;
圖8是示例靜態和動態搜索空間的另一個圖示;
圖9是示例詞網格的圖示;
圖10是示例中間詞網格的圖示;
圖11是圖10的示例中間詞網格的另一個圖示;
圖12是圖10的示例中間詞網格的另一個圖示;
圖13是示例系統的說明圖;
圖14是另一示例系統的說明圖;以及
圖15示出全部根據本公開的至少一些實施布置的另一示例設備。
具體實施方式
現在參照附圖描述一個或多個實施方式。雖然討論了特定的配置和布置,但是應當理解,這僅僅是為了說明的目的。相關領域的技術人員將認識到,在不脫離本描述的精神和保護范圍的情況下,可以采用其他配置和布置。對于相關領域的技術人員將顯而易見的是,本文所描述的技術和/或布置還可以在除了本文所描述的之外的各種其他系統和應用中采用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580047908.0/2.html,轉載請聲明來源鉆瓜專利網。





