[發明專利]多相機場景會議室中發言者重新識別的系統和方法在審
| 申請號: | 202211067685.2 | 申請日: | 2022-09-01 |
| 公開(公告)號: | CN116434323A | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 晏勇;張葵;D·揚 | 申請(專利權)人: | 繽特力股份有限公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/82;H04N7/15;H04N23/60 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 李煒;張鑫 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多相 機場 會議室 發言者 重新 識別 系統 方法 | ||
本申請公開了多相機場景會議室中發言者重新識別的系統和方法。在多相機視頻會議配置中,每個相機的位置是已知的。通過參考對每個相機可見的已知對象,開發3D坐標系,其中每個相機的方位和角度與該3D坐標系相關聯。針對每個相機確定會議參與者在3D坐標系中的位置。來自一個相機(通常是中央相機)的聲音源定位(SSL)用于確定發言者。然后確定發言者的姿勢。根據姿勢和相機的已知位置,確定具有發言者的最佳正面視圖的相機。然后使用發言者的3D坐標來引導所確定的相機框選發言者。如果發言者的面部不夠可見,則確定下一個最佳相機視圖,并且從該相機視圖框選發言者。
技術領域
本公開總體涉及一種視頻會議中的相機選擇。
背景技術
用于視頻會議的會議室的最常見的配置具有與位于室的一端的監視器或電視相鄰的單個相機。這種配置的一個缺點是,如果發言者在講話時正在看會議室中的其他人,則發言者不面向相機。這意味著遠端只能看到發言者的側視圖,因此發言者似乎沒有在對遠端發言。
已經努力通過在會議室中提供多個相機來解決這個問題。這個想法是讓相機指向不同的方向,并且然后選擇提供發言者的最佳視圖的相機,優選地縮放和框選發言者。這些努力改善了發言者的視圖,但僅限于單個個人場景,這通常不是問題,因為發言者通常將看向監視器,并且因此看向單個相機。如果多個人存在于會議室中并且在各個相機視圖中可見,那么這些努力沒有提供好的結果。
附圖說明
為了圖示,在附圖中示出了本公開中描述的某些示例。在附圖中,相同的數字自始至終指示相同的元件。本文公開的本發明的全部范圍不限于所示的精確布置、尺寸和器械。在附圖中:
圖1是包含三個相機、監視器和桌子和椅子的會議室的圖示。
圖2、圖3是圖1的會議室的圖示,具有不同的個人,其中一個人發言。
圖4是根據本公開的示例的編碼解碼器和相機之間的操作劃分的圖示。
圖5A是根據本公開的示例的相關坐標系的圖示。
圖5B是相機到圖5A的坐標系的投影的圖示。
圖6是根據本公開的示例的視頻會議系統的安裝的流程圖。
圖7是根據本公開示例的圖4的最佳相機選擇步驟的操作的流程圖。
圖8是根據本公開的示例的圖6的正面視圖相機選擇和框選確定步驟的操作的流程圖。
圖9是根據本公開的示例的在姿勢確定和姿勢匹配步驟中使用的關鍵點的圖示。
圖10是根據本公開的示例的編碼解碼器的框圖。
圖11是根據本公開的示例的相機的框圖。
圖12是圖9和圖10的處理器單元的框圖。
圖13是根據本公開的示例的相機的前視圖的圖示。
具體實施方式
在多相機視頻會議配置中,每個相機的位置是已知的。通過參考對每個相機可見的已知對象,開發3D坐標系,其中每個相機的方位和角度與該3D坐標系相關聯。針對每個相機確定會議參與者在3D坐標系中的位置。來自一個相機(通常是中央相機)的聲音源定位(SSL)用于確定發言者。然后確定發言者的姿勢。根據姿勢和相機的已知位置,確定具有發言者的最佳正面視圖的相機。然后使用發言者的3D坐標來引導所確定的相機框選發言者。如果發言者的面部不夠可見,則確定下一個最佳相機視圖,并且從該相機視圖框選發言者。
在本文的附圖和附圖的描述中,某些術語僅是為了方便而使用的,不應被視為限制本公開的示例。在附圖和下面的描述中,相同的數字自始至終指示相同的元件。
在整個本公開中,以與本領域技術人員使用的方式一致的方式使用術語,例如:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于繽特力股份有限公司,未經繽特力股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211067685.2/2.html,轉載請聲明來源鉆瓜專利網。





