[發明專利]具有高效解碼的自動語音識別方法及系統在審
| 申請號: | 202011381159.4 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN113450802A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 彼得·羅森;約阿希姆·霍夫 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/02;G10L15/28;G10L19/00 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 董越 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具有 高效 解碼 自動 語音 識別 方法 系統 | ||
本公開涉及具有高效解碼的自動語音識別方法及系統。通過頻繁的束寬調整來實現具有高效解碼的自動語音識別系統、物品和方法。
技術領域
本申請涉及具有高效解碼的自動語音識別方法及系統。
背景技術
語音識別系統或自動語音識別器變得越來越重要,因為越來越多的基于計算機的設備使用語音識別來接收來自用戶的命令,以便執行某動作以及將語音轉換成文本以用于聽寫應用,或者甚至在信息在一個或兩個方向上被交換的情況下與用戶保持對話。因此,自動語音識別(ASR)對于可穿戴設備、智能手機和其他小型設備以及任何其他需要音頻識別的計算機或設備都是需要的。
這些ASR系統中的一些是大詞匯量系統,例如用于智能電話或其他移動設備以及一些計算機上的個人助理。這些大詞匯量ASR系統具有相對大的計算負荷。然而,由于ASR的計算負荷大和復雜性,很難實時操作這些系統,特別是當大詞匯量ASR系統被嵌入在移動設備上或機載在(或本地于)移動設備時。通常,這種用于小型設備的機載ASR系統具有太慢的機載計算能力、相對較低質量的單詞識別、和/或較高的功耗,使得ASR不切實際。大詞匯量ASR系統還需要相對大量的處理器和其他配套硬件,并縮短電池壽命。除了小型移動設備外,對于諸如膝上型計算機之類的較大的系統也是如此。因此,需要一種高質量ASR系統,其在使用更低的功耗和降低的硬件需求的同時提供足夠準確的實時單詞識別。
發明內容
本申請的一個方面提供了一種計算機實現的自動語音識別方法,包括:獲得音頻數據,所述音頻數據包括被分成幀的人類語音;通過語音識別解碼器傳播這些幀的令牌,包括:針對各個幀更新解碼器束寬,所述更新發生在所述幀中的一個幀的當前令牌分數被計算之后并且在同一個幀的后續令牌分數被與更新后的束寬進行比較之前,其中后續是相對于計算所述當前令牌分數時而言的,并且其中所述更新針對所述一個幀的多個當前令牌分數被重復;以及根據所述令牌分數,確定一個或多個假設聲音、單詞或短語。
附圖說明
本文描述的材料在附圖中以示例而不是限制的方式示出。為使圖示簡單和清楚起見,圖中所示的元件不一定按比例繪制。例如,為了清楚起見,某些元件的尺寸可以相對于其他元件被夸大。此外,在被認為合適的情況下,在附圖之間重復附圖標記以指示相應或類似的元件。在附圖中:
圖1是示出根據本文的至少一個實現方式的自動語音識別(ASR)系統的示意圖;
圖2是根據本文的至少一個實現方式的具有高效解碼的自動語音識別過程的流程圖;
圖3A-3B是根據本文的至少一個實現方式的具有高效解碼的自動語音識別過程的詳細流程圖;
圖4是根據本文的至少一個實現方式的ASR解碼器網絡結構的示意圖;
圖5是根據本文的至少一個實現方式的在添加新令牌之前的解碼器的示例束寬直方圖的圖;
圖6是根據本文的至少一個實現方式的示例令牌池的示意圖;
圖7是根據本文的至少一個實現方式的在添加令牌之后的解碼器的示例束寬直方圖的圖;
圖8是示例系統的說明圖;
圖9是另一示例系統的說明圖;以及
圖10示出了另一示例設備,全部根據本公開的至少一些實現方式來布置。
具體實施方式
現在參照所附附圖描述一個或多個實現方式。雖然討論了具體的配置和布置,但應該理解,這僅是為了說明目的而執行的。相關領域的技術人員將認識到,在不脫離本說明書的精神和范圍的情況下,可以采用其他配置和布置。對于相關領域的技術人員來說顯而易見的是,本文描述的技術和/或布置也可以用于除本文描述之外的各種其他系統和應用中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011381159.4/2.html,轉載請聲明來源鉆瓜專利網。





