[發(fā)明專利]用戶專用的自動語音識別在審
| 申請?zhí)枺?/td> | 201280071506.0 | 申請日: | 2012-03-16 |
| 公開(公告)號: | CN104488025A | 公開(公告)日: | 2015-04-01 |
| 發(fā)明(設(shè)計)人: | T·沃爾夫;M·布克;T·豪利克;蘇哈迪 | 申請(專利權(quán))人: | 紐昂斯通訊公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 劉瑜;王英 |
| 地址: | 美國馬*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶 專用 自動 語音 識別 | ||
1.一種用于自動語音識別(ASR)的設(shè)備,包括:
采用至少一個硬件實現(xiàn)的計算機處理器的多模式聲音控制的用戶接口,其中所述用戶接口適用于與一個或多個可能的說話者進行語音對話,并且包括:
a.廣泛傾聽模式,其不使用空間過濾,從所述可能的說話者接收語音輸入;和
b.選擇性傾聽模式,其使用空間過濾,將語音輸入限制到特定說話者;
其中所述用戶接口響應(yīng)于一個或多個切換提示,切換傾聽模式。
2.如權(quán)利要求1所述的設(shè)備,其中所述廣泛傾聽模式使用相關(guān)聯(lián)的廣泛模式識別詞匯表,所述選擇性傾聽模式使用不同的、相關(guān)聯(lián)的選擇性模式識別詞匯表。
3.如權(quán)利要求1所述的設(shè)備,其中所述切換提示包括來自于所述語音輸入的一個或多個模式切換詞。
4.如權(quán)利要求1所述的設(shè)備,其中所述切換提示包括在所述語音對話中的一個或多個對話狀態(tài)。
5.如權(quán)利要求1所述的設(shè)備,其中所述切換提示包括來自于所述可能的說話者的一個或多個視覺提示。
6.如權(quán)利要求1所述的設(shè)備,其中所述選擇性傾聽模式使用聲學(xué)說話者定位以用于所述空間過濾。
7.如權(quán)利要求1所述的設(shè)備,其中所述選擇性傾聽模式使用圖像處理以用于所述空間過濾。
8.如權(quán)利要求1所述的設(shè)備,其中在選擇性傾聽模式中,對于多個被選擇的說話者中的每一個而言,所述用戶接口同時并行操作。
9.如權(quán)利要求1所述的設(shè)備,其中所述接口適用于在這兩個傾聽模式中并行操作,由此,所述接口在所述廣泛傾聽模式中接收來自于房間內(nèi)任何用戶的語音輸入,與此同時在所述選擇性傾聽模式中,接收僅來自于一個被選擇說話者的語音輸入。
10.一種在非暫時性計算機可讀介質(zhì)中編碼的、用于操作自動語音識別(ASR)系統(tǒng)的計算機程序產(chǎn)品,所述產(chǎn)品包括:
用于經(jīng)由多模式聲音控制的用戶接口與一個或多個可能的說話者進行語音對話的程序代碼,所述用戶接口適用于:
a.在廣泛傾聽模式中,不使用空間過濾,從所述可能的說話者接收語音輸入;以及
b.在選擇性傾聽模式中,使用空間過濾,將語音輸入限制到特定說話者;
其中所述用戶接口響應(yīng)于一個或多個切換提示,切換傾聽模式。
11.一種用于自動語音識別(ASR)的設(shè)備,包括:
采用至少一個硬件實現(xiàn)的計算機處理器的聲音控制的用戶接口,其中所述用戶接口適用于與一個或多個可能的說話者進行語音對話;以及
與所述用戶接口進行通信的用戶選擇模塊,所述用戶選擇模塊用于基于對所述可能的說話者的圖像處理,使用空間過濾來限制所述用戶接口,以便僅響應(yīng)來自于一個特定說話者的語音輸入。
12.如權(quán)利要求11所述的設(shè)備,其中所述空間過濾進一步基于多個麥克風(fēng)的選擇性的波束成形。
13.如權(quán)利要求11所述的設(shè)備,其中所述用戶接口進一步適用于提供視覺反饋以指示所述特定說話者的方向。
14.如權(quán)利要求11所述的設(shè)備,其中所述用戶接口進一步適用于提供視覺反饋以指示所述特定說話者的身份。
15.如權(quán)利要求11所述的設(shè)備,其中所述圖像處理包括執(zhí)行所述可能的說話者的視覺圖像的手勢識別。
16.如權(quán)利要求11所述的設(shè)備,其中所述圖像處理包括執(zhí)行所述可能的說話者的面部的視覺圖像的面部識別。
17.一種在非暫時性計算機可讀介質(zhì)中編碼的、用于操作自動語音識別(ASR)系統(tǒng)的計算機程序產(chǎn)品,所述產(chǎn)品包括:
用于聲音控制的用戶接口的程序代碼,所述用戶接口適用于與一個或多個可能的說話者進行語音對話;以及
用于與所述用戶接口進行通信的用戶選擇模塊的程序代碼,所述用戶選擇模塊用于基于對所述可能的說話者的圖像處理,使用空間過濾來限制所述用戶接口,以便僅響應(yīng)來自于一個特定說話者的語音輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于紐昂斯通訊公司,未經(jīng)紐昂斯通訊公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280071506.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:聲音處理系統(tǒng)
- 下一篇:篡改明顯栓體安全密封件





