[發(fā)明專利]基于視線估計(jì)的多屏場景下鼠標(biāo)快速控制方法、系統(tǒng)及計(jì)算機(jī)可讀介質(zhì)有效
| 申請?zhí)枺?/td> | 202011553957.0 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112667078B | 公開(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 朱光明;張亮;馮明濤;魯特剛;宋娟;沈沛意 | 申請(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號: | G06F3/01 | 分類號: | G06F3/01;G06F3/038;G06F3/0354;G06T7/73;G06T3/00;G06V40/16;G06V10/764;G06V10/82;G06V40/18;G06N3/045;G06N3/08 |
| 代理公司: | 西安知誠思邁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61237 | 代理人: | 麥春明 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 視線 估計(jì) 場景 鼠標(biāo) 快速 控制 方法 系統(tǒng) 計(jì)算機(jī) 可讀 介質(zhì) | ||
1.基于視線估計(jì)的多屏場景下鼠標(biāo)快速控制方法,其特征在于,包括以下步驟:
圖像采集:多個相機(jī)多角度實(shí)時拍攝屏幕前操作人物的圖像,產(chǎn)生當(dāng)前時刻的人物圖像信息,采集各個時刻的人物圖像信息;
圖像處理,包括人臉檢測、特征點(diǎn)檢測、頭部姿態(tài)估計(jì)、三維視線估計(jì)、坐標(biāo)轉(zhuǎn)化、設(shè)置置信度閾值:
人臉檢測:將采集的各個時刻的人臉多角度的圖像序列輸入至深度級聯(lián)神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征提取,然后進(jìn)行人臉分類和人臉候選框篩選,輸出最終位置的人臉框;具體為:
將采集的各個時刻的人臉多角度的圖像序列通過人臉/非人臉分類器輸出得到各個可能含有人臉的邊界框,將得到的各個可能含有人臉的邊界框輸入至深度級聯(lián)神經(jīng)網(wǎng)絡(luò)模型中的第一個子網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行特征提取,輸出候選窗,對輸出的候選窗使用邊界框回歸方法合并重疊的候選窗,得到校正后的候選窗;校正后的候選窗分為兩部分,第一部分用來判斷當(dāng)前校正后的候選窗內(nèi)圖像是否存在人臉,第二部分表示當(dāng)前校正后的候選窗內(nèi)人臉位置相對完美的人臉框位置的偏移;
將通過第一個子網(wǎng)絡(luò)得到校正后的候選窗作為輸入,通過深度級聯(lián)神經(jīng)網(wǎng)絡(luò)模型中的第二個子網(wǎng)絡(luò)結(jié)構(gòu),輸出粗預(yù)測的候選窗,使用邊界框回歸方法合并重疊的粗預(yù)測的候選窗,得到第二次校正后的候選窗;
將通過第二個子網(wǎng)絡(luò)結(jié)構(gòu)得到的第二次校正后的候選窗作為輸入,通過深度級聯(lián)神經(jīng)網(wǎng)絡(luò)模型中的第三個子網(wǎng)絡(luò)結(jié)構(gòu),輸出最終位置的人臉框;
特征點(diǎn)檢測:通過人臉約束模型對輸出的最終位置的人臉框中的特征點(diǎn)進(jìn)行檢測,標(biāo)注出最終位置的人臉框中的人臉二維特征關(guān)鍵點(diǎn),實(shí)現(xiàn)二維人臉關(guān)鍵點(diǎn)定位;
頭部姿態(tài)估計(jì):根據(jù)輸出的最終位置的人臉框中的人臉二維特征關(guān)鍵點(diǎn)反向投影到三維人臉模型,獲得人臉三維特征關(guān)鍵點(diǎn),將人臉三維特征關(guān)鍵點(diǎn)轉(zhuǎn)換到圖像坐標(biāo)系的平移矩陣以及旋轉(zhuǎn)矩陣,進(jìn)而得到頭部姿態(tài)歐拉角,實(shí)現(xiàn)頭部姿態(tài)估計(jì);
三維視線估計(jì):根據(jù)相機(jī)位置、屏幕位置以及相機(jī)坐標(biāo)系下頭部姿態(tài)之間存在的幾何關(guān)系,求得相機(jī)坐標(biāo)系下的注視方向在屏幕內(nèi)的坐標(biāo),完成三維視線估計(jì);
坐標(biāo)轉(zhuǎn)化:將相機(jī)坐標(biāo)系下的注視方向在屏幕內(nèi)的坐標(biāo)值轉(zhuǎn)換到屏幕坐標(biāo)系內(nèi),輸出屏幕坐標(biāo)系下人臉多角度的圖像序列的注視方向在屏幕內(nèi)的像素坐標(biāo)位置;
其中將相機(jī)坐標(biāo)系下的注視方向在屏幕內(nèi)坐標(biāo)值轉(zhuǎn)換到屏幕坐標(biāo)系的計(jì)算公式為:
;
式中:、分別為屏幕坐標(biāo)系下的注視方向在屏幕內(nèi)的物理坐標(biāo)值,、分別為相機(jī)坐標(biāo)系下的注視方向在屏幕內(nèi)坐標(biāo)值,代表相機(jī)坐標(biāo)系與屏幕坐標(biāo)系的軸方向相反,、分別為相機(jī)坐標(biāo)系與屏幕坐標(biāo)系的坐標(biāo)原點(diǎn)間偏移量;
輸出屏幕坐標(biāo)系下人臉多角度的圖像序列的注視方向在屏幕內(nèi)的像素坐標(biāo)位置中,屏幕的物理尺寸大小與像素分辨率之間存在如下關(guān)系:
;
式中,、分別為屏幕坐標(biāo)系下像素的x方向坐標(biāo)值和y方向坐標(biāo)值,、分別為x方向和y方向下屏幕坐標(biāo)系下的注視方向在屏幕內(nèi)的物理坐標(biāo)值,、分別為x方向和y方向下的屏幕物理尺寸,、分別為x方向和y方向下的像素尺寸;
設(shè)置置信度閾值:對比各個相機(jī)的圖像序列計(jì)算得到的注視方向在屏幕內(nèi)的像素坐標(biāo)位置及其置信度,選取人臉正對、置信度高的計(jì)算結(jié)果作為最終的屏幕及注視方向在屏幕內(nèi)的像素坐標(biāo)位置輸出結(jié)果;
讀取坐標(biāo)位置,控制鼠標(biāo)動作:獲取到的最終的屏幕及注視方向在屏幕內(nèi)的像素坐標(biāo)位置即為鼠標(biāo)移動的目標(biāo)位置,讀取輸出的屏幕及像素坐標(biāo)值,控制鼠標(biāo)光標(biāo)快速移動到對應(yīng)注視位置,實(shí)現(xiàn)基于視線估計(jì)的多屏場景下鼠標(biāo)快速控制方法。
2.根據(jù)權(quán)利要求1所述的基于視線估計(jì)的多屏場景下鼠標(biāo)快速控制方法,其特征在于,所述人物圖像信息包括:人臉多角度的圖像序列、圖像的源相機(jī)參數(shù)、以及源相機(jī)所在屏幕位置信息;人臉多角度的圖像序列為包含完整眼部的人臉多角度圖像序列。
3.根據(jù)權(quán)利要求1所述的基于視線估計(jì)的多屏場景下鼠標(biāo)快速控制方法,其特征在于,所述人臉/非人臉分類器的交叉熵?fù)p失函數(shù),表達(dá)式如下:
;
式中,為背景的真實(shí)標(biāo)簽,是人臉的概率;
所述邊界框回歸方法使用非極大值抑制合并重疊的候選框,得到校正后的候選窗,邊界框回歸方法通過計(jì)算候選窗的背景坐標(biāo)與真實(shí)的背景坐標(biāo)之間的歐式距離,計(jì)算回歸損失函數(shù),表達(dá)式如下:
;
式中,表示歐氏距離的L2損失函數(shù),表示四維實(shí)數(shù)空間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011553957.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





