[發明專利]用戶專用的自動語音識別在審

申請號：	201280071506.0	申請日：	2012-03-16
公開（公告）號：	CN104488025A	公開（公告）日：	2015-04-01
發明（設計）人：	T·沃爾夫;M·布克;T·豪利克;蘇哈迪	申請（專利權）人：	紐昂斯通訊公司
主分類號：	G10L15/22	分類號：	G10L15/22
代理公司：	永新專利商標代理有限公司 72002	代理人：	劉瑜;王英
地址：	美國馬***	國省代碼：	美國;US
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用戶專用自動語音識別
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及一種用于計算機系統的用戶接口，更確切地，涉及一種使用自動語音識別的用戶專用的、多模式的、聲音控制的接口。

背景技術

在聲音控制的設備中，通常使用一鍵通(push-to-talk，PTT)按鈕來觸發自動語音識別(ASR)。按下PTT按鈕使得該系統對任何說出的詞輸入作出響應，而不考慮是誰發出的語音。在遠距離的通話應用例如聲控電視或計算機游戲控制臺中，PTT按鈕可以被激活詞命令所替代。另外，可能會有多個用戶潛在地想要進行聲音控制。

通常ASR系統配備有用于克服干擾和噪音的信號預處理器。常常使用多個麥克風，特別是對于遠距離通話接口，其中語音增強算法在空間上被操縱指向假定的說話者的方向(波束成形)。因此，來自于其它方向的干擾將被抑制。這對于所期望的說話者而言提高了ASR性能，但是對于其他人而言降低了ASR性能。因而，ASR性能依賴于說話者相對于麥克風陣列的空間位置，以及波束成形算法的操縱方向。

發明內容

本發明的實施例是針對采用至少一個硬件實現的計算機處理器的自動語音識別(ASR)系統的多模式聲音控制的用戶接口，以及使用這一接口相應的方法。該用戶接口適用于與一個或多個可能的說話者進行語音對話，并且包括廣泛傾聽模式，其接收可能的說話者的語音輸入而不進行空間過濾，以及選擇性傾聽模式，其使用空間過濾將語音輸入限定為特定說話者。該用戶接口響應于一個或多個切換提示切換傾聽模式。

廣泛傾聽模式可能使用相關聯的廣泛模式識別詞匯表，而選擇性傾聽模式使用不同的相關聯的選擇性模式識別詞匯表。該切換提示能夠包括來自于語音輸入的一個或多個模式切換詞，在語音對話中的一個或多個對話狀態，和/或來自于可能說話者的一個或多個視覺提示。選擇性傾聽模式可以使用聲學說話者位置和/或圖像處理以用于空間過濾。

在選擇性傾聽模式，對于多個被選擇的說話者的每個而言，用戶接口能夠同時并行操作。此外或可替換地，該接口可以被適應為在兩個傾聽模式下并行操作，此時接口在廣泛傾聽模式下接收來自房間內的任何用戶的語音輸入，與此同時在選擇性傾聽模式下接收僅僅來自于一個被選擇的說話者的語音輸入。

本發明的實施例還包括用于自動語音識別(ASR)的設備，其包括采用至少一個硬件實現的計算機處理器的語音控制的用戶接口。該用戶接口適用于與一個或多個可能的說話者進行語音對話。用戶選擇模塊與用戶接口進行通信，以用于基于可能的說話者的圖像處理使用空間過濾來限制用戶接口，以便僅響應來自于一個特定說話者的聲音輸入。

空間過濾可以進一步基于多個麥克風的選擇性的波束成形。用戶接口可以進一步適用于提供視覺反饋來指示特定說話者的方向和/或特定說話者的身份。圖像處理可以包括執行可能說話者的視覺圖像的手勢識別和/或可能說話者的面部的視覺圖像的面部識別。

附圖說明

圖1示出了根據本發明的實施例的用于使用語音控制的用戶接口的布置。

圖2示出了根據本發明的實施例的用于用戶專用語音控制的用戶接口的狀態圖。

圖3示出了使用聲學和內容信息來選擇給定說話者作為活躍用戶。

圖4示出了使用視覺信息來選擇給定說話者作為活躍用戶。

圖5示出了使用視覺、聲學和內容信息的結合來選擇給定說話者作為活躍用戶。

圖6示出了具有順序可交替的操作模式的聲音控制接口的順序布置。

圖7示出了用于具有同步并行操作模式的聲音控制接口的并行布置。

具體實施方式

本發明的實施例是針對用戶專用ASR，其將語音控制功能限制在一個被選擇的用戶上，而不是恰巧在附近的任意用戶。這可以基于，例如，用戶說調用用戶限制功能的特定的激活詞。之后，該系統可以仍然專用于所指定的用戶，直至特定對話結束或某些其它模式切換事件發生。在運行在用戶專用模式時，該系統不響應來自于其它用戶(干擾說話者)的任何說出的輸入。

更確切地，本發明的實施例包括用戶專用的、多模式的、語音控制的接口，其使用自動語音識別，具有兩個不同種類的傾聽模式：(1)廣泛傾聽模式，其響應于來自于任何方向的任何用戶的語音輸入；和(2)選擇性傾聽模式，其將語音輸入限定到特定位置上的特定說話者。該接口系統可以基于不同的切換提示來切換模式：對話狀態，某些激活詞，或視覺手勢。不同的傾聽模式也可以使用不同的識別詞匯表，例如，廣泛傾聽模式下的受限的詞匯表和選擇性傾聽模式下的較大的識別詞匯表。為了將語音輸入限制為特定說話者，該系統可以使用聲學說話者位置和/或視頻處理單元來確定說話者位置。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于紐昂斯通訊公司，未經紐昂斯通訊公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201280071506.0/2.html，轉載請聲明來源鉆瓜專利網。