[發(fā)明專利]基于深度學(xué)習(xí)的視頻會議場景人形檢測方法在審
| 申請?zhí)枺?/td> | 202111315469.0 | 申請日: | 2021-11-08 |
| 公開(公告)號: | CN113989850A | 公開(公告)日: | 2022-01-28 |
| 發(fā)明(設(shè)計(jì))人: | 丁帆;任永忠;梅宇青;王沛;曾德軍;陶宇 | 申請(專利權(quán))人: | 深圳市音絡(luò)科技有限公司 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京創(chuàng)略知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32358 | 代理人: | 王丹 |
| 地址: | 518000 廣東省深圳市寶安區(qū)新安街道靈芝園社區(qū)22區(qū)勤誠達(dá)樂園*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 視頻會議 場景 人形 檢測 方法 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的視頻會議場景人形檢測方法,用于在視頻會議場景中提取全景圖像并檢測各個(gè)人員在圖像中的位置,有助于實(shí)現(xiàn)局部畫面聚焦、輔助語音增強(qiáng)等;該方法使用攝像機(jī)從會議場景中采集原始全景圖像并矯正;將矯正后的矩形全景圖像拼接映射成長寬相等的方形圖像,并作歸一化預(yù)處理和數(shù)據(jù)增強(qiáng);構(gòu)建基于殘差網(wǎng)絡(luò)?特征金字塔網(wǎng)絡(luò)的深度學(xué)習(xí)模型;建立邊界框回歸網(wǎng)絡(luò),同時(shí)計(jì)算出人體目標(biāo)四周邊框位置以及置信度和中心加權(quán);使用自適應(yīng)焦點(diǎn)損失來訓(xùn)練模型,輸入會議場景圖像進(jìn)行訓(xùn)練。本發(fā)明通過邊界回歸、中心加權(quán)和自適應(yīng)焦點(diǎn)損失來引導(dǎo)模型適應(yīng)特殊場景中的人體目標(biāo),從而提高密集人員會議場景下檢測的準(zhǔn)確率、召回率,具有良好的應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器視覺領(lǐng)域,具體設(shè)計(jì)一種基于深度學(xué)習(xí)的視頻會議場景人形檢測方法。
背景技術(shù)
視頻會議中的人形檢測常用來實(shí)現(xiàn)說話人聚焦、輔助語音定向增強(qiáng)等功能。但是,在復(fù)雜的會議室場景中,由于參會人數(shù)多、座位密集、光線不均衡、人員移動隨機(jī)等因素的影響,常規(guī)目標(biāo)檢測算法在此應(yīng)用場景下的性能大幅下降。同時(shí),會議室中所使用的攝像頭通常是超廣角或全景攝像頭,畫幅較廣,單個(gè)人體目標(biāo)在畫面中的占比小,可利用的特征有限。此外,會議室中的人員往往是坐姿,且身體會被桌椅、電腦等會議設(shè)施部分遮擋,可提供的有效信息更加匱乏。因此,視頻會議場景下的人形檢測任務(wù)成為一種普遍的難題。
傳統(tǒng)的人形檢測算法,往往采用手工設(shè)計(jì)算子來提取一些特征來進(jìn)行分析。ViolaJones檢測器采用滑動窗口查看圖像中所有可能的位置和比例,檢查目標(biāo)是否存在窗口之中。這種方法結(jié)合了“積分圖像”、“特征選擇”和“檢測級聯(lián)”三種重要技術(shù),大大提高了檢測速度。方向梯度直方圖(HOG)特征描述符也曾被用來解決行人檢測問題,其可以用來平衡特征不變性(包括平移、尺度、光照等)和非線性(區(qū)分不同對象類別)。DPM算法在HOG算法的基礎(chǔ)上進(jìn)行改進(jìn)和延伸,由一個(gè)主過濾器和多個(gè)輔過濾器組成,通過硬負(fù)挖掘,邊框回歸和上下文啟動技術(shù)改進(jìn)檢測精度。作為最優(yōu)的傳統(tǒng)檢測算法,DPM方法運(yùn)算速度快,能夠適應(yīng)物體形變,但它無法適應(yīng)大幅度的旋轉(zhuǎn),因此穩(wěn)定性差。
近年來快速發(fā)展的深度學(xué)習(xí)算法在檢測領(lǐng)域也有著廣泛應(yīng)用。基于深度學(xué)習(xí)方法的目標(biāo)檢測克服了以往傳統(tǒng)算法依賴于手工設(shè)計(jì)的特征的缺點(diǎn)。目標(biāo)檢測目前有單階段和兩階段兩種,兩階段指的是檢測算法需要分兩步完成,首先需要獲取候選區(qū)域,然后進(jìn)行分類,比如R-CNN系列;與之相對的是單階段檢測,不需要單獨(dú)尋找候選區(qū)域,典型的有SSD和YOLO系列等。對于上述兩種方式,基于候選區(qū)域的兩階段方法在檢測準(zhǔn)確率和定位精度上占優(yōu),基于端到端的單階段算法速度占優(yōu)。然而這些算法往往都是解決通用的多類別目標(biāo)檢測,且在物體特征豐富、目標(biāo)較大且分布稀疏、光照一致的情況下,才能取得較好的效果。由于現(xiàn)實(shí)的復(fù)雜性,實(shí)際會議室場景很可能與通用訓(xùn)練集存在較大偏差,雖然可以進(jìn)行自建數(shù)據(jù)集來彌補(bǔ)一些不足,但是通用深度學(xué)習(xí)檢測模型在密集檢測、小目標(biāo)檢測、被遮擋人體的捕捉等方面,始終是存在不足的。
因此,如何解決會議室中人體目標(biāo)密集、光照不均勻、畫幅廣目標(biāo)小、不規(guī)則物體遮擋等問題,是提升視頻會議場景下人形檢測效果的關(guān)鍵,對于提升人形檢測效果、提高視頻會議通話質(zhì)量和參會體驗(yàn),有著重要的研究意義。
發(fā)明內(nèi)容
本發(fā)明的目的是解決視頻會議場景人形檢測任務(wù)中人體目標(biāo)密集、光照不均勻、畫幅廣、目標(biāo)小、不規(guī)則物體遮擋等問題,從而提升檢測算法性能,提高檢測準(zhǔn)確率和召回率,以及檢測的IOU精度等指標(biāo)。本發(fā)明的種基于深度學(xué)習(xí)的視頻會議場景人形檢測模型,使用邊界框回歸網(wǎng)絡(luò),同時(shí)計(jì)算出人體目標(biāo)四周邊框位置以及置信度和中心加權(quán),從而更好地使用排列密集的人體目標(biāo),避免了漏檢測和重復(fù)檢測;同時(shí)引入自適應(yīng)焦點(diǎn)損失來訓(xùn)練模型,用來解決樣本不均衡問題,主要包括正負(fù)樣本和難易樣本是否均衡問題,最終更好的適配人形檢測場景,大幅提升了檢測性能,方法巧妙新穎,具有良好的應(yīng)用前景。
為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案是:
基于深度學(xué)習(xí)的視頻會議場景人形檢測方法,包括如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市音絡(luò)科技有限公司,未經(jīng)深圳市音絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111315469.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 視頻會議控制方法、系統(tǒng)、視頻會議網(wǎng)絡(luò)設(shè)備和會場
- 視頻會議的控制方法和視頻會議系統(tǒng)
- 視頻會議系統(tǒng)及多方視頻會議轉(zhuǎn)換方法
- 一種控制視頻會議的方法及視頻會議系統(tǒng)
- 視頻會議的實(shí)現(xiàn)方法、接入方法及相應(yīng)裝置
- 一種視頻會議管理系統(tǒng)和方法
- 跨用戶域視頻會議的實(shí)現(xiàn)方法、系統(tǒng)、設(shè)備及存儲介質(zhì)
- 一種視頻會議控制方法、多點(diǎn)控制單元及視頻會議終端
- 基于車載終端的視頻會議建立方法、系統(tǒng)、存儲介質(zhì)、車載終端
- 一種視頻會議協(xié)同方法、電子設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)





