[發(fā)明專利]優(yōu)化的視頻快照有效
| 申請(qǐng)?zhí)枺?/td> | 201410178226.0 | 申請(qǐng)日: | 2014-04-30 |
| 公開(公告)號(hào): | CN104135638B | 公開(公告)日: | 2017-12-19 |
| 發(fā)明(設(shè)計(jì))人: | Y·威納;O·莫戴 | 申請(qǐng)(專利權(quán))人: | 阿瓦亞公司 |
| 主分類號(hào): | H04N7/15 | 分類號(hào): | H04N7/15 |
| 代理公司: | 中國(guó)國(guó)際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所11038 | 代理人: | 李玲 |
| 地址: | 美國(guó)新*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 優(yōu)化 視頻 快照 | ||
技術(shù)領(lǐng)域
本發(fā)明的領(lǐng)域一般涉及用于提供視頻會(huì)議參與者的可視資源的方法、介質(zhì)和設(shè)備。
背景技術(shù)
視頻會(huì)議系統(tǒng)在廣泛使用,并且使得在完全不同地理位置的參與者能夠進(jìn)行面對(duì)面的會(huì)議而不必旅行很遠(yuǎn)的距離。當(dāng)參加這種會(huì)議時(shí),貫穿會(huì)議始終看見參與者的視頻并且在會(huì)議期間任何時(shí)間能夠確定誰在會(huì)議中會(huì)是有用的。
發(fā)明內(nèi)容
因此,本發(fā)明的實(shí)施例可以包括一種用于呈現(xiàn)美感圖像的方法,該方法包括:分析會(huì)議中用戶的音軌以確定何時(shí)該用戶是正在講話者,當(dāng)該用戶是正在講話者時(shí),分析音軌的語音信號(hào)以識(shí)別用于該用戶是正在講話者時(shí)的美感音素,以及確定對(duì)應(yīng)于該美感音素的用戶的至少一個(gè)圖像。
本發(fā)明的實(shí)施例還可以包括一種用于呈現(xiàn)美感圖像的系統(tǒng),該系統(tǒng)包括:音頻分析工具,該音頻分析工具被啟用以分析會(huì)議的音軌來確定會(huì)議的參與者何時(shí)是正在講話者,分析音軌的語音信號(hào)以識(shí)別正在講話者的美感音素,以及確定對(duì)應(yīng)于美感音素的正在講話者的至少一個(gè)圖像。
附圖說明
圖1示出了用于提供視頻會(huì)議參與者的可視資源的系統(tǒng)。
圖2示出了用于提供視頻會(huì)議參與者的可視資源的方法的流程圖。
具體實(shí)施方式
提供了用于提供視頻會(huì)議參與者的可視資源的方法、介質(zhì)和設(shè)備。可以從所捕獲的參加會(huì)議人員的序列中產(chǎn)生優(yōu)化的圖像快照。應(yīng)當(dāng)理解,優(yōu)化的圖像可以是視頻幀,其中捕獲的對(duì)象—諸如某個(gè)人或某些人的—在幀中是完全可見的。完全可見的捕獲可以是其中沒有裁減的捕獲,或者沒有被遮住的捕獲。對(duì)本文感興趣的人員應(yīng)當(dāng)理解,也許不能得到完美的捕獲,但是可以獲得較優(yōu)選的捕獲。
可以利用高效率、低復(fù)雜度音頻分析工具來捕獲音軌。基于已知某人何時(shí)在講話,可以把從此人的視頻序列中提取圖像作為目標(biāo)。本發(fā)明利用了正在講話者的偏好,其中正在講話者在進(jìn)行會(huì)議并且意識(shí)到注意力集中在他們身上,也許想要通過看照相機(jī)并使他們位于照相機(jī)前面以便不被遮住來優(yōu)化他們的外表。
也可以分析音素來獲得優(yōu)選的捕獲。為了識(shí)別美感的面部表情,可以利用音軌。本發(fā)明的系統(tǒng)可以識(shí)別其中正在講話的人的嘴唇和面部處于美觀方式的音素。應(yīng)當(dāng)理解,音素分析會(huì)比圖像分析方法學(xué)有較小的計(jì)算復(fù)雜度。
捕獲的圖像可以與特定的參與者相關(guān)聯(lián),該圖像是為該特定的參與者拍攝的。存在許多可以利用所捕獲的圖像的用途。捕獲的圖像可以作為會(huì)議參與者的代表性圖像替換視頻流。在參與者已經(jīng)靜音他的視頻或者在特定時(shí)間網(wǎng)絡(luò)條件不提供最佳視頻質(zhì)量時(shí),會(huì)是這樣。捕獲的圖像可以作為離線歸檔系統(tǒng)中會(huì)議參與者的代表性圖像。捕獲的圖像可以在用于那些歸檔的其中參與者過去正在講話時(shí)的會(huì)議片段中識(shí)別講話者。捕獲的圖像可以作為系統(tǒng)參與者名單中會(huì)議參與者的表示。捕獲的圖像可以作為用于會(huì)在會(huì)議期間發(fā)生的不同事件的可視隊(duì)列。這些事件的例子是:當(dāng)參與者開始介紹時(shí),或者當(dāng)參與者發(fā)送聊天消息時(shí),或“把他們的手舉起”等。應(yīng)當(dāng)理解,以上是捕獲圖像的用途的例子,本領(lǐng)域技術(shù)人員可以在許多其它的情形下使用這種捕獲的圖像。
啟用本發(fā)明的系統(tǒng)來接收一組同步的音頻流和視頻流。該系統(tǒng)將提取會(huì)議參與者的美感視頻快照或圖像。特定用戶的音頻流和視頻流可以通過系統(tǒng)—諸如通過一組同步捕獲時(shí)鐘—進(jìn)行時(shí)間標(biāo)記。
該系統(tǒng)分析會(huì)議參與者的音軌。當(dāng)參與者是正在講話者時(shí),系統(tǒng)將分析語音信號(hào)并且通過音素把音頻分段。應(yīng)當(dāng)理解,這種分析可以通過VAD(語音活動(dòng)檢測(cè))算法執(zhí)行。
在本發(fā)明的實(shí)施例中,系統(tǒng)可以把音素分類成多個(gè)不同的集合。第一集合可以是與美感上愉快的面部表情相關(guān)聯(lián)的音素。這些音素通常被稱為“美感音素”。可以把其它音素歸類成一個(gè)或多個(gè)其它集合。當(dāng)分析音素時(shí),系統(tǒng)會(huì)選擇正好在該音素之前或之后的時(shí)間段,比如靜寂時(shí)間段。當(dāng)分析音素時(shí),系統(tǒng)可以通過特定音素的子元素進(jìn)行分類。其可以是諸如輔音或者元音。系統(tǒng)可以通過音素集合或序列進(jìn)行分類。系統(tǒng)還可以通過備選的音頻參數(shù)細(xì)化圖像選擇。這些備選的音頻參數(shù)可以是例如可通過使用多個(gè)麥克風(fēng)指示的音頻方向估計(jì)。音頻水平、背景噪聲估計(jì)、串?dāng)_檢測(cè)、或其它音頻參數(shù)可以用于細(xì)化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿瓦亞公司,未經(jīng)阿瓦亞公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410178226.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文件系統(tǒng)的快照方法和裝置
- 分布式文件系統(tǒng)中的元數(shù)據(jù)快照存儲(chǔ)和訪問方法
- 一種刪除級(jí)聯(lián)快照的方法及裝置
- 分布式塊存儲(chǔ)的快照樹的根節(jié)點(diǎn)的優(yōu)化方法和裝置
- 一種快照盤地址的定位方法及裝置
- 集群中創(chuàng)建數(shù)據(jù)快照的方法及終端設(shè)備
- 一種快照生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 存儲(chǔ)卷的快照處理方法、裝置、介質(zhì)和電子設(shè)備
- 一種存儲(chǔ)快照文件的方法及裝置
- 一種卷影拷貝的方法、系統(tǒng)、設(shè)備及介質(zhì)





