[發明專利]音頻用戶交互辨識和上下文精煉有效
| 申請號: | 201380022164.8 | 申請日: | 2013-05-06 |
| 公開(公告)號: | CN104246878B | 公開(公告)日: | 2018-04-27 |
| 發明(設計)人: | 金萊軒;辛鐘元;埃里克·維瑟 | 申請(專利權)人: | 高通股份有限公司 |
| 主分類號: | G10L25/48 | 分類號: | G10L25/48;H04N7/15 |
| 代理公司: | 北京律盟知識產權代理有限責任公司11287 | 代理人: | 宋獻濤 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 用戶 交互 辨識 上下文 精煉 | ||
相關申請案的交叉參考
本申請案依據35 U.S.C.§119(e)的權益主張2012年5月11日申請且標題為“音頻用戶交互辨識和上下文精煉(AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT)”的第61/645,818號美國臨時專利申請案的優先權,且主張2012年11月12日申請且標題為“音頻用戶交互辨識和上下文精煉(AUDIO USER INTERACTION RECOGNITION AND CONTEXT REFINEMENT)”的第13/674,773號美國非臨時專利申請案的優先權,以上申請案的內容明確地以引用方式并入本文。
背景技術
通過在不同時間點確定用戶正看著的方向可推導大量有用信息,且此信息可用以增強用戶與多種計算系統的交互。因此,常見的是已經采取大量使用基于視覺的方法進行的凝視跟蹤研究(即,使用若干不同裝置跟蹤眼睛)。然而,了解用戶的凝視方向僅給出關于用戶關注的一個維度的語義信息,且不考慮大部分由語音給出的上下文信息。換句話說,與語音跟蹤結合的凝視跟蹤的組合將在多種不同用戶應用中提供較富含的且較有意義的信息。
發明內容
使用基于音頻的方法確定上下文信息(即,正發送或由用戶接收的非視覺信息)。通過朝向特定人或特定聲音源導向音頻波束可增強接收側上的音頻用戶交互。本文描述的技術因此可允許用戶較清楚地理解例如對話的上下文。為了實現這些益處,來自一或多個可導向麥克風陣列的輸入和來自固定麥克風陣列的輸入可用以在正呈現基于音頻的上下文信息(或甚至基于視覺的語義信息)的情況下確定一個人正看著誰或一個人相對于正在說話的人注意什么內容。
對于各種實施方案,使用兩種不同類型的麥克風陣列裝置(MAD)。第一類型的MAD是可導向麥克風陣列(本文也稱為可導向陣列),其由用戶佩戴在關于用戶的眼睛的已知定向上,且多個用戶可各自佩戴可導向陣列。第二類型的MAD是固定位置麥克風陣列(本文也稱為固定陣列),其放置于與用戶(其中一或多者正使用可導向陣列)相同的聲學空間中。
對于某些實施方案,可導向麥克風陣列可為有源噪聲控制(ANC)頭戴式耳機或助聽器的部分。可存在多個可導向陣列,其各自與例如會議或群組中的不同用戶或說話者(本文也稱為參與者)相關聯。在此上下文中,固定麥克風陣列將隨后用以使用音頻波束來分離在群組會議期間說話和收聽的不同人,所述音頻波束對應于所述不同人相對于所述固定陣列定位的方向。
評估固定陣列的經分離說話者的音頻波束與可導向陣列的輸出之間的相關或相似性。相關是相似性量度的一個實例,但可使用若干相似性測量或確定技術中的任一者。
在一實施方案中,固定陣列的經分離參與者的音頻波束與可導向陣列的輸出之間的相似性量度可用以跟蹤參與者之間的社交交互,包含在不同參與者說話或呈現基于音頻的信息時參與者隨著時間的凝視方向。
在一實施方案中,固定陣列的經分離參與者的音頻波束與可導向陣列的輸出之間的相似性量度可用以例如放大目標參與者。此縮放又可能在一個用戶(在所述時刻是收聽者)正凝視著正提供基于音頻的信息(即,說話)的另一個人時導致增強的噪聲濾波和放大。
在一實施方案中,固定陣列的經分離參與者的音頻波束與可導向陣列的輸出之間的相似性量度可用以自適應地形成目標參與者的較好波束,從而實際上較好地確定用戶中的每一者相對于彼此的物理定向。
提供此概述以用簡化形式介紹概念的選擇,所述概念在以下詳細描述中進一步描述。此概述既定不識別所主張標的物的關鍵特征或本質特征,也既定不用以限制所主張標的物的范圍。
附圖說明
當結合附圖閱讀時更好地理解前述概述以及以下對說明性實施例的詳細描述。為了說明實施例的目的,在圖中展示實施例的實例性構造;然而,實施例不限于所揭示的特定方法和手段。在圖中:
圖1是可用以確定上下文信息的各自佩戴可導向麥克風陣列的用戶群組連同固定麥克風陣列的圖;
圖2是使用可導向麥克風陣列和固定麥克風陣列確定用戶交互的方法的實施方案的操作流程;
圖3是使用可導向麥克風陣列和固定麥克風陣列確定用戶交互的方法的另一實施方案的操作流程;
圖4是可提供用戶身份和用戶正觀看哪一方向的指示的實例性顯示的圖;
圖5是可產生和顯示且指示各種用戶交互和會議數據的用戶接口的圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高通股份有限公司,未經高通股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380022164.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于通過細長孔口通風地傾倒的容器閉合件
- 下一篇:電動推車裝置





