[發(fā)明專利]基于深度學習的多學生個體分割及狀態(tài)自主識別方法有效
| 申請?zhí)枺?/td> | 202010280435.1 | 申請日: | 2020-04-10 |
| 公開(公告)號: | CN111507227B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設計)人: | 李濤;謝非;光蔚然;章悅;汪璠;陸飛;錢偉行;楊德明;張煒;邱爽 | 申請(專利權)人: | 南京漢韜科技有限公司;南京師范大學;南京吉仁智能科技有限公司 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/774;G06V10/82;G06N3/0464 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 學生 個體 分割 狀態(tài) 自主 識別 方法 | ||
1.基于深度學習的多學生個體分割及狀態(tài)自主識別方法,其特征在于,包括以下步驟:
步驟1:采集正常上課視頻,對所采集的視頻進行分幀處理,得到每10秒一張待處理的圖像,將得到的所有圖像合幀,得到課堂視頻的連續(xù)幀圖像;
步驟2:利用基于Mask?R-CNN掩模區(qū)域卷積神經(jīng)網(wǎng)絡的多學生個體分割方法分割出課堂視頻的連續(xù)幀圖像中的學生個體和非學生個體,并將不同學生個體標記為不同顏色的掩碼,得到標記學生掩碼的課堂連續(xù)幀圖像;
步驟3:利用步驟2得到的標記學生掩碼的課堂連續(xù)幀圖像,通過人臉特征點定位方法找到每個學生個體的人眼特征點,利用人眼特征點計算每個學生個體的人眼閉合度特征值,通過人眼閉合度特征值判斷每個學生個體當前是否處于聽課狀態(tài);
步驟4:利用人臉特征點定位方法判斷所有學生個體是否檢測到人臉,根據(jù)所有學生個體中未檢測到人臉的個數(shù)占所有學生個體的比例,判斷學生個體的聽課狀態(tài)等級;
步驟5:根據(jù)上述步驟處理完所有課堂視頻的連續(xù)幀圖像后,結合每個學生個體是否處于聽課狀態(tài)及每個學生個體是否處于未抬頭狀態(tài),通過對不同聽課狀態(tài)打分加權計算出學生整個課堂時段聽課效率百分比;
步驟1包括:
步驟1.1:錄制整個課堂時段的全體學生正面視頻,將所錄制的視頻保存;
步驟1.2:獲得整個課堂時段的全體學生正面視頻總幀數(shù),得到每十秒的幀數(shù),設置每十秒的幀數(shù)取一次幀,將每次取得的幀轉化為每10秒一張待處理的圖像輸出保存;
步驟1.3:對得到的每10秒一張待處理的圖像合并,得到課堂視頻的連續(xù)幀圖像;
步驟2包括:
步驟2.1:使用卷積神經(jīng)網(wǎng)絡提取課堂視頻的連續(xù)幀圖像中的特征圖,用于后續(xù)MaskR-CNN中的RPN層和全連接層;
步驟2.2:將得到的特征圖輸入到RPN層,完成從特征圖中提取RoI;
步驟2.3:對RPN層的輸出結果進行RoIAlign操作,使不同輸入尺寸的感興趣的區(qū)域RoI得到固定尺寸的輸出;
步驟2.4:將步驟2.3處理后的RoI分別送入到Fast?R-CNN和FCN兩個分支,F(xiàn)ast?R-CNN對RoI進行分類和邊界框回歸,F(xiàn)CN為每個RoI預測掩碼;
步驟2.1包括:
卷積神經(jīng)網(wǎng)絡包括卷積層、激活函數(shù)和池化層;
卷積層對課堂視頻的連續(xù)幀圖像進行特征提取,其特征提取的具體實現(xiàn)是通過卷積核對感受野區(qū)域進行卷積所實現(xiàn)的,特征圖的每個神經(jīng)元將輸入層中相鄰區(qū)域的神經(jīng)元連接在一起,這一區(qū)域被稱為輸入層特征圖的感受野,卷積運算的過程為:
其中,I表示卷積運算的輸入,a,b分別為卷積運算的輸入的橫坐標及縱坐標,K表示卷積核,S表示得到的特征映射,c,d分別為得到的特征映射的橫坐標及縱坐標;
通過池化層的池化操作將得到的特征圖內(nèi)一位置及其相鄰位置的特征值進行統(tǒng)計匯總,并將匯總后的結果作為這一位置在所述特征圖內(nèi)的值;
使用ReLu函數(shù)作為激活函數(shù):
其中,x表示激活函數(shù)的自變量;
步驟2.2包括:
步驟2.2.1:RPN層首先為特征圖上的每個像素生成9個不同大小的錨箱(anchor?box),這9種錨箱包含三種面積(128×128,256×256,512×512),每種面積又包含三種長寬比(1:1,1:2,2:1);
步驟2.2.2:對生成的錨箱進行裁剪過濾,RPN層中包含分類分支和邊框回歸分支,通過分類分支判斷錨點屬于前景還是背景,即是學生個體還是教室背景;通過邊框回歸分支回歸修正沒有被排除的錨箱,具體包括:
去除掉超過原圖邊界的錨箱,即去除掉不需要被檢測的背景,判斷剩下的錨箱與真值ground?truth的交并比IoU,設置閾值:如果IoU0.7,則標記為正標簽,如果IoU0.3,則標記為負標簽,如果0.3≤IoU≤0.7,則既不是正標簽也不是負標簽;
步驟2.2.3:在RPN層末端,對分類分支及邊框回歸分支的結果進行匯總,實現(xiàn)對錨箱的初步篩除和初步偏移后,得到的輸出稱為候選框,將各個候選框映射到特征圖上即為感興趣的區(qū)域RoI;
步驟2.3包括:
步驟2.3.1:將RoI映射到特征圖的對應位置,使用已有的VGG16網(wǎng)絡,選取步長為32做卷積層,則圖片縮小為原輸入圖像的1/32,經(jīng)過所述步長為32的卷積層后的區(qū)域方案映射到特征圖中的大小也為原來的1/32;
步驟2.3.2:設定映射后的特征圖大小為n*n,n不取整,經(jīng)池化后固定成7*7大小的特征圖,則將特征圖上映射的n*n的區(qū)域方案劃分成49個同等大小的小區(qū)域,每個小區(qū)域的大小(n/7)*(n/7);
步驟2.3.3:設定采樣點數(shù)為4,即表示對于每個(n/7)*(n/7)的小區(qū)域平分成四份,每一份取其中心點位置的像素,采用雙線性插值法進行計算得到四個點的像素值;
步驟2.3.4:取四個像素值中最大值作為這個小區(qū)域的像素值,如此類推,同樣是49個小區(qū)域得到49個像素值,組成7*7大小的特征圖,實現(xiàn)了將特征圖上的感興趣的區(qū)域RoI固定成特定大小;
步驟3包括:
步驟3.1:利用AdaBoost算法,檢測出每個學生個體的人臉所在位置;
步驟3.2:檢測到每個學生個體的人臉所在位置后,通過人臉特征點定位到每個學生個體的人眼特征點;
步驟3.3:利用每個學生個體的人眼特征點計算每個學生個體的人眼閉合度特征值,公式如下:
其中,xt為眼睛位置的橫坐標,yt為眼睛位置的縱坐標,k1為左眼閉合度特征值,k2為右眼閉合度特征值,k為左右眼的平均閉合度特征值;
xt、yt的下標t代表的數(shù)字為所有人眼特征點的序號,當學生感到疲勞或打瞌睡時,人眼趨于閉合狀態(tài),特征點2即P2與特征點6即P6趨近重合,k值會減小,根據(jù)k值大小,判斷檢測到的學生個體是否處于聽課狀態(tài):
如果k值大于等于0.175,則學生個體被識別為認真聽課狀態(tài);
如果k值小于0.175,則學生個體被識別為不聽課狀態(tài);
步驟4包括:
利用AdaBoost算法檢測人臉,未檢測到人臉則判定該學生個體未抬頭,根據(jù)所有學生個體中未檢測到人臉的個數(shù)占所有學生個體的比例,判斷學生個體的聽課狀態(tài)等級:
如果一幀圖像中大于等于80%的學生都處于未抬頭狀態(tài),則判定所有未抬頭學生為認真聽課狀態(tài);
如果一幀圖像中大于等于40%小于80%的學生處于未抬頭狀態(tài),則判定所有未抬頭學生為一般聽課狀態(tài);
如果一幀圖像中小于40%的學生處于未抬頭狀態(tài),則判定未抬頭學生處于不聽課狀態(tài)。
2.根據(jù)權利要求1所述的方法,其特征在于,步驟5包括:
通過對不同聽課狀態(tài)打分加權計算出學生整個課堂時段聽課效率百分比:
對步驟3及步驟4中判別出的處于認真聽課狀態(tài)的學生個體,每檢測到一次打1分;
對步驟4中判別出的處于一般聽課狀態(tài)的學生個體,每檢測到一次打0.6分;
對步驟3及步驟4中判別出的處于不聽課狀態(tài)的學生個體,每檢測到一次打0分;
最終每個學生個體的得分計算公式為:
其中,P為學生個體的得分,r為學生個體處于認真聽課狀態(tài)的總幀數(shù),s為學生個體處于一般聽課狀態(tài)的總幀數(shù),N為得到課堂視頻的連續(xù)幀圖像總幀數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京漢韜科技有限公司;南京師范大學;南京吉仁智能科技有限公司,未經(jīng)南京漢韜科技有限公司;南京師范大學;南京吉仁智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010280435.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





