[發明專利]語音-身體身份相關有效
| 申請號: | 201110033245.0 | 申請日: | 2011-01-24 |
| 公開(公告)號: | CN102135882A | 公開(公告)日: | 2011-07-27 |
| 發明(設計)人: | M·德尼斯;T·萊瓦德;C·克萊恩;李勁宇 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G10L15/00;G10L15/06;G01S5/22 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 陳斌;高見 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 身體 身份 相關 | ||
技術領域
本發明涉及一種用于在多用戶應用程序中將語音與用戶相關聯的系統和方法。
背景技術
諸如計算機游戲和多媒體應用之類的系統已經演變到系統能夠利用用戶移動和口頭通信作為對系統的輸入的地步。此類自然系統可能連向多個用戶,在此情況下迫使在個體之間作出區分。現有技術允許游戲或應用通過各種機制來標識視場內的用戶,這些機制包括能夠感測諸如大小、面部特征、衣著顏色等用戶特征的三維深度相機。還存在語音識別技術以通過包括話筒陣列在內的各種機制來標識感知用戶語音。傳統上,這兩種技術還未曾合作地使用過。在不用涉及用戶方的特意裝置的情況下自動將用戶語音與身體相匹配將是令人信服的。例如,可能會有單獨使用成像技術或單獨使用音頻技術,人的身份不明確的情況發生。在低成本的消費者系統中尤其如此。除了幫助明確用戶外,音頻與視覺身份的此類關聯可被用于支持游戲或應用內的用戶體驗。
發明內容
本文描述了一種用于在多用戶應用程序中將語音與用戶相關聯的系統和方法。該系統包括能夠提供所述圖像相機組件的視場中的一個或多個用戶的深度圖像的圖像相機組件。該系統還包括話筒陣列,其能夠接收該話筒陣列的范圍內的音頻。話筒陣列還能夠將語音的源定位在第一容限內。實施例還包括與圖像捕捉組件和話筒陣列兩者通信且能夠區別視場中的不同用戶達到第二容限的計算環境。在實施例中,第一和第二容限有時可能妨礙在對來自圖像相機的數據和來自話筒陣列的數據進行初始采樣后將語音與用戶相關聯。然而,計算環境還執行對來自圖像相機的數據和來自話筒陣列的數據的附加采樣。這些附加采樣允許將語音與用戶相關聯或者該些附加采樣降低了語音與用戶相關聯的似然性。
附圖說明
圖1A-1B示出伴隨用戶玩游戲的目標識別、分析和跟蹤系統的示例實施例。
圖2示出了可在目標識別、分析和跟蹤系統中使用的捕捉設備的示例實施例。
圖3A示出了可用于在目標識別、分析和跟蹤系統中解釋一個或多個姿勢的計算環境的示例實施例。
圖3B示出了可用于在目標識別、分析和跟蹤系統中解釋一個或多個姿勢的計算環境的另一示例實施例。
圖4描繪用于將語音與身體相關聯的示例方法的高層流程圖。
圖5描繪用于標識視場內的一個或多個身體的流程圖。
圖6描繪用于標識由本系統的話筒陣列所拾取的語音的流程圖。
圖7描繪用于將語音與身體毫無疑義地相關聯的實施例的流程圖。
圖8A和8B一起描繪用于經由對語音和身體位置標識的多次采樣將語音與身體相關聯的實施例的流程圖。
具體實施方式
現在將參照圖1A到8B來描述本技術的實施例,其一般涉及一種用于隨時間推移跟蹤圖像和音頻數據以基于人體在多用戶游戲或多媒體設置中的語音與身體的相關性來自動地標識人體的系統。一般而言,該系統包括捕捉設備,包括用于感測視場中諸如人之類的對象的一個或多個相機,以及用于感測諸如人的語音之類的音頻的話筒陣列。相機能夠確定視場中的對象是否是人,并且還能確定所辨識的人的物理特征,諸如骨關節位置。相機還能夠確定視場中的人們彼此之間以及與捕捉設備的相對位置。話筒陣列能夠確定所聽到聲音是否是語音,并且可不時地區別不同的語音。話筒也可以能夠確定一檢出語音與其他檢出語音以及與話筒的相對位置。
在圖像和音頻系統能夠毫無疑義地確定給定語音屬于視場中的給定用戶身體的情況下,存儲該語音-身體關聯性。然而,可能發生在圖像和音頻采樣之后系統不能建立單個毫無疑義關聯性的情況。作為替代,系統標識所采樣語音可能屬于的一個或多個候選用戶。在此實例中,本系統可采用各種因素來確定語音與身體是否高于預定閾值置信度(“TCL”)地相關聯。若是,則盡管并非毫無疑義,仍可返回并存儲該語音-身體關聯性以供未來采樣使用。未來采樣將或者強化該關聯性,或者顯示該關聯性仍有疑意,在后一情形下可移除該關聯性。
最初參考圖1A-2,用于實現本發明的技術的硬件包括目標識別、分析和跟蹤系統10,該系統可用于識別、分析和/或跟蹤諸如用戶A到D等一個或多個人類目標。目標識別、分析和跟蹤系統10的各實施例包括用于執行游戲或其他應用程序的計算環境12,以及用于從游戲或其他應用程序提供音頻和視覺表示的視聽設備16。系統10還包括捕捉設備20,包括一個或多個深度感知相機以及包括兩個或更多個話筒的話筒陣列。捕捉設備20與計算環境12通信,以使得計算環境12可以部分地基于從捕捉設備20收到的信息來控制至視聽設備16的輸出。這些組件中的每一各都會在以下詳細描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110033245.0/2.html,轉載請聲明來源鉆瓜專利網。





