[發(fā)明專利]用戶專用的自動語音識別在審

申請?zhí)枺?/td>	201280071506.0	申請日：	2012-03-16
公開（公告）號：	CN104488025A	公開（公告）日：	2015-04-01
發(fā)明（設(shè)計）人：	T·沃爾夫;M·布克;T·豪利克;蘇哈迪	申請（專利權(quán)）人：	紐昂斯通訊公司
主分類號：	G10L15/22	分類號：	G10L15/22
代理公司：	永新專利商標代理有限公司 72002	代理人：	劉瑜;王英
地址：	美國馬***	國省代碼：	美國;US
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用戶專用自動語音識別
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種用于自動語音識別(ASR)的設(shè)備，包括：

采用至少一個硬件實現(xiàn)的計算機處理器的多模式聲音控制的用戶接口，其中所述用戶接口適用于與一個或多個可能的說話者進行語音對話，并且包括：

a.廣泛傾聽模式，其不使用空間過濾，從所述可能的說話者接收語音輸入；和

b.選擇性傾聽模式，其使用空間過濾，將語音輸入限制到特定說話者；

其中所述用戶接口響應(yīng)于一個或多個切換提示，切換傾聽模式。

2.如權(quán)利要求1所述的設(shè)備，其中所述廣泛傾聽模式使用相關(guān)聯(lián)的廣泛模式識別詞匯表，所述選擇性傾聽模式使用不同的、相關(guān)聯(lián)的選擇性模式識別詞匯表。

3.如權(quán)利要求1所述的設(shè)備，其中所述切換提示包括來自于所述語音輸入的一個或多個模式切換詞。

4.如權(quán)利要求1所述的設(shè)備，其中所述切換提示包括在所述語音對話中的一個或多個對話狀態(tài)。

5.如權(quán)利要求1所述的設(shè)備，其中所述切換提示包括來自于所述可能的說話者的一個或多個視覺提示。

6.如權(quán)利要求1所述的設(shè)備，其中所述選擇性傾聽模式使用聲學(xué)說話者定位以用于所述空間過濾。

7.如權(quán)利要求1所述的設(shè)備，其中所述選擇性傾聽模式使用圖像處理以用于所述空間過濾。

8.如權(quán)利要求1所述的設(shè)備，其中在選擇性傾聽模式中，對于多個被選擇的說話者中的每一個而言，所述用戶接口同時并行操作。

9.如權(quán)利要求1所述的設(shè)備，其中所述接口適用于在這兩個傾聽模式中并行操作，由此，所述接口在所述廣泛傾聽模式中接收來自于房間內(nèi)任何用戶的語音輸入，與此同時在所述選擇性傾聽模式中，接收僅來自于一個被選擇說話者的語音輸入。

10.一種在非暫時性計算機可讀介質(zhì)中編碼的、用于操作自動語音識別(ASR)系統(tǒng)的計算機程序產(chǎn)品，所述產(chǎn)品包括：

用于經(jīng)由多模式聲音控制的用戶接口與一個或多個可能的說話者進行語音對話的程序代碼，所述用戶接口適用于：

a.在廣泛傾聽模式中，不使用空間過濾，從所述可能的說話者接收語音輸入；以及

b.在選擇性傾聽模式中，使用空間過濾，將語音輸入限制到特定說話者；

其中所述用戶接口響應(yīng)于一個或多個切換提示，切換傾聽模式。

11.一種用于自動語音識別(ASR)的設(shè)備，包括：

采用至少一個硬件實現(xiàn)的計算機處理器的聲音控制的用戶接口，其中所述用戶接口適用于與一個或多個可能的說話者進行語音對話；以及

與所述用戶接口進行通信的用戶選擇模塊，所述用戶選擇模塊用于基于對所述可能的說話者的圖像處理，使用空間過濾來限制所述用戶接口，以便僅響應(yīng)來自于一個特定說話者的語音輸入。

12.如權(quán)利要求11所述的設(shè)備，其中所述空間過濾進一步基于多個麥克風(fēng)的選擇性的波束成形。

13.如權(quán)利要求11所述的設(shè)備，其中所述用戶接口進一步適用于提供視覺反饋以指示所述特定說話者的方向。

14.如權(quán)利要求11所述的設(shè)備，其中所述用戶接口進一步適用于提供視覺反饋以指示所述特定說話者的身份。

15.如權(quán)利要求11所述的設(shè)備，其中所述圖像處理包括執(zhí)行所述可能的說話者的視覺圖像的手勢識別。

16.如權(quán)利要求11所述的設(shè)備，其中所述圖像處理包括執(zhí)行所述可能的說話者的面部的視覺圖像的面部識別。

17.一種在非暫時性計算機可讀介質(zhì)中編碼的、用于操作自動語音識別(ASR)系統(tǒng)的計算機程序產(chǎn)品，所述產(chǎn)品包括：

用于聲音控制的用戶接口的程序代碼，所述用戶接口適用于與一個或多個可能的說話者進行語音對話；以及

用于與所述用戶接口進行通信的用戶選擇模塊的程序代碼，所述用戶選擇模塊用于基于對所述可能的說話者的圖像處理，使用空間過濾來限制所述用戶接口，以便僅響應(yīng)來自于一個特定說話者的語音輸入。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于紐昂斯通訊公司，未經(jīng)紐昂斯通訊公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201280071506.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】