[發(fā)明專利]基于深度學(xué)習(xí)的電梯轎廂人員智能識別方法在審
| 申請?zhí)枺?/td> | 202010585183.3 | 申請日: | 2020-06-25 |
| 公開(公告)號: | CN111898430A | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計)人: | 高雪 | 申請(專利權(quán))人: | 北京電通慧梯物聯(lián)網(wǎng)科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06F16/55 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100000 北京市昌*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 電梯 人員 智能 識別 方法 | ||
1.基于深度學(xué)習(xí)的電梯轎廂人員的智能識別方法,其特征在于,包括以下步驟:
S1:對收集到的電梯轎廂內(nèi)的圖像進(jìn)行分類數(shù)據(jù)處理,建立圖像分類模型數(shù)據(jù)集;
S2:對收集到的電梯轎廂內(nèi)的圖像進(jìn)行目標(biāo)檢測數(shù)據(jù)處理,建立目標(biāo)檢測模型數(shù)據(jù)集;
S3:構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類網(wǎng)絡(luò),對轎廂進(jìn)行“有人”和“無人”2種狀態(tài)分類;利用轎廂圖像數(shù)據(jù)集進(jìn)行迭代訓(xùn)練,完成圖像分類模型的構(gòu)建;
S4:構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測網(wǎng)絡(luò),檢測未戴口罩(nomask),戴口罩(mask)和頭部(head)共3種人的目標(biāo);利用轎廂圖像模型數(shù)據(jù)集進(jìn)行迭代訓(xùn)練,完成圖像目標(biāo)檢測模型的構(gòu)建;
S5:圖像分類模型和目標(biāo)檢測模型部署在圖像識別處理服務(wù)器上;利用轎廂內(nèi)的攝像頭抓取圖片,上傳到圖像識別服務(wù)器,首先通過圖像分類網(wǎng)絡(luò)進(jìn)行分類,快速確認(rèn)轎廂內(nèi)是否有人;如果判斷結(jié)果是“有人”狀態(tài),調(diào)用圖像目標(biāo)檢測模型進(jìn)行檢測,記錄數(shù)據(jù),進(jìn)行報警;如果沒有發(fā)現(xiàn)任何目標(biāo),則標(biāo)記該圖片無人,并且反饋至圖像分類模型,用于圖像分類模型的優(yōu)化和更新訓(xùn)練;
所述步驟S3的具體步驟包括:
S31:構(gòu)建卷積神經(jīng)分類網(wǎng)絡(luò)主要包括卷積層,池化層,全連接層組成;具體分層為:
L0:輸入圖像寬240,高度135,3通道;卷積層,32通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L1:池化單元,最大池化,size=2,stride=2;
L2:卷積層,64通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L3:卷積層,64通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L4:池化單元,最大池化,size=2,stride=2;
L5:卷積層,128通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L6:卷積層,128通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L7:池化單元,最大池化,size=2,stride=2;
L8:卷積層,64通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L9:卷積層,64通道,3x3卷積核,stride=1;連接一個ReLU函數(shù)激活處理;
L10:池化單元,最大池化,size=2,stride=2;
L11:L7層輸出扁平化為1維數(shù)據(jù);
L12:全連接層,32通道,采用tanh函數(shù)激活輸出;
L13:全連接層,2通道,采用softmax輸出,y1和y2;對應(yīng)無人和有人2種圖像狀態(tài)分類;
S32:網(wǎng)絡(luò)訓(xùn)練過程:損失函數(shù)采用交叉熵?fù)p失函數(shù),圖片中有人時,圖片中沒有人時,
S33:網(wǎng)絡(luò)的迭代訓(xùn)練過程,采用Adam優(yōu)化器算法,學(xué)習(xí)率0.0001
S34:網(wǎng)絡(luò)迭代訓(xùn)練過程中,L12全連接層權(quán)重參數(shù)訓(xùn)練采用L2正則化.
S35:訓(xùn)練網(wǎng)絡(luò)時,進(jìn)行隨機數(shù)據(jù)增廣,隨機進(jìn)行圖像旋轉(zhuǎn),水平移動,垂直移動,隨機縮放;
S35:網(wǎng)絡(luò)預(yù)測:針對網(wǎng)絡(luò)推理輸出得到L13層的輸出,y1和y2;如果y20.3,即判為有人,調(diào)用目標(biāo)檢測網(wǎng)絡(luò)進(jìn)一步分析;
所述步驟S4的具體步驟包括:
S41:構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測網(wǎng)絡(luò),主要包括卷積單元,池化單元,上采樣單元,組合單元,目標(biāo)回歸單元,目標(biāo)識別單元組成;其中卷積單元包括1個卷積層,1個BN層處理,1個LeakyReLU激活函數(shù)處理;
S42:目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu),按計算單元處理順序為:
L0:卷積單元,輸入尺寸,416*416*3.卷積層為:16通道,3x3卷積核,stride=1;連接BN層處理;再連接一個LeakyReLU層輸出;
L1:池化單元,最大池化,size=2,stride=2;
L2:卷積單元,卷積層32通道,3x3卷積核,stride=1;連接BN層處理;再連接一個LeakyReLU激活函數(shù)處理;
L3:池化單元,最大池化,size=2,stride=2;
L4:卷積單元,卷積層64通道,3x3卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L5:池化單元,最大池化,size=2,stride=2;
L6:卷積單元,卷積層64通道,3x3卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L7:池化單元,最大池化,size=2,stride=2;
L8:卷積單元,卷積層64通道,3x3卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L9:卷積單元,卷積層64通道,3x3卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L10:池化單元,最大池化,size=2,stride=2
L11:卷積單元,卷積層64通道,3x3卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L12:卷積單元,卷積層64通道,3x3卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L13:上采樣單元:插值法
L14:組合單元:按照輸出通道組合L9單元和L13單元的輸出,得到128通道的輸出;
L15:卷積單元,卷積層64通道,1x1卷積核,stride=1,連接BN層處理,再連接一個LeakyReLU激活函數(shù)處理;
L16:回歸計算單元:卷積層32通道,1x1卷積核,stride=1,直接進(jìn)行線性輸出;輸出數(shù)據(jù)形狀為26x26x32;對應(yīng)輸出特征圖的26x26共計676個網(wǎng)格(grid),每個網(wǎng)格包含32個數(shù)值;
L17:目標(biāo)識別單元:對L16的輸出進(jìn)行處理,把每個網(wǎng)格獲得的32個數(shù)值,分為4組,代表4個可能的目標(biāo);每一組8個數(shù)值,代表1個可能目標(biāo)框信息;8個數(shù)值依次表示為:
tx,ty,tw,th,tobj,tnomask,tmask,thead
S43:計算目標(biāo)框的歸一化坐標(biāo)位置的公式為:(bx,by)
其中:cx,cy∈0,1,...,25,表示特征圖網(wǎng)格所在的列和行;
S44:計算目標(biāo)框的歸一化寬度和高度公式分別為:bw,bh
系統(tǒng)預(yù)先定義搜索目標(biāo)的參考框,命名為錨框(anchor box);Aw,Ah為錨框(anchorbox)的寬度和高度;系統(tǒng)預(yù)先定義有4種尺寸的錨框,以像素為單位;輸出特征圖中每個網(wǎng)格的4組數(shù)據(jù),對應(yīng)4個可能的目標(biāo)框,并且是分別對應(yīng)4個錨框數(shù)值相對偏移;
S45:計算目標(biāo)框的存在目標(biāo)的概率為pobj
pobj=sigmoid(tobj)
S46:計算目標(biāo)不同類別的概率值:pnomask,pmask,phead
pnomask=sigmoid(tnomask)
pmask=sigmoid(tmask)
phead=sigmoid(thead)
S47:訓(xùn)練網(wǎng)絡(luò)
使用圖像數(shù)據(jù)集對L16輸出胡數(shù)據(jù)形狀為26x26x32的數(shù)據(jù)進(jìn)行回歸訓(xùn)練,;通過對圖像數(shù)據(jù)集中的圖片進(jìn)行標(biāo)注的結(jié)果,可以獲得每一個被標(biāo)注的目標(biāo)的目標(biāo)框信息,同時目標(biāo)的類別概率和目標(biāo)框概率為1;以此數(shù)據(jù)作為回歸訓(xùn)練的標(biāo)簽;
S48:目標(biāo)訓(xùn)練和檢測過程采用4個錨框(anchor box);Anchor box的選擇是通過kmeans算法,針對圖像數(shù)據(jù)集進(jìn)行聚類分析,找到最優(yōu)的4個anchor box;得到4組(Aw,Ah).用于計算(bw,bh)
S49:模型訓(xùn)練的損失函數(shù)為:
loss=loss01+loss02+loss03
其中:
其中主要參數(shù):
bx,by,bw,bh:如前述從模型輸出計算得到的數(shù)值;
在訓(xùn)練時,訓(xùn)練圖片中標(biāo)注的被檢測目標(biāo)的坐標(biāo)位置,寬度和高度;按圖像尺寸歸一化計算的數(shù)值;
第i個網(wǎng)格的第j個錨框(anchor box)是否負(fù)責(zé)這個被檢測對象(object),如果負(fù)責(zé),那么否則為0;
判斷是否負(fù)責(zé)檢測的標(biāo)準(zhǔn):
計算所有錨框(anchor box)與被檢測目標(biāo)的標(biāo)定框(ground truth box)的交并比(IOU);選擇IOU中最大錨框,那它就負(fù)責(zé)預(yù)測這個對象,因為這個形狀、尺寸最符合當(dāng)前這個對象;
取值為1或0;按如下方式定義:
如果第i個網(wǎng)格的第j個anchor box對應(yīng)的并且當(dāng)前anchor box與groundtruth box的IOU小于閾值0.5,則
否則,
表示訓(xùn)練中對象置信度真實值,的取值是由grid cell的bounding box有沒有負(fù)責(zé)預(yù)測某個對象決定的;如果負(fù)責(zé),那么否則:
對象置信度推測值,根據(jù)模型輸出結(jié)果計算:
其中:IOUi,j是真實圖片目標(biāo)的box,與當(dāng)前模型輸出的bx,by,bw,bh定義的box的交并比(IOU);
是模型輸出的第i個grid的第j個box的第c個類別的概率,具體為:pnomask,pmask,phead;
是訓(xùn)練圖片的目標(biāo)類別概率值,目標(biāo)類別是確定的,所以取決于圖片中目標(biāo)的實際類別;
S410:訓(xùn)練過程采用有限的隨機多尺度384,416,448,訓(xùn)練過程采用訓(xùn)練圖像隨機旋轉(zhuǎn)角度調(diào)整,隨機調(diào)整色度和隨機進(jìn)行縮放,以增加模型泛化能力,;
S411:目標(biāo)檢測處理
目標(biāo)檢測過程中,針對模型L16輸出的結(jié)果,針對每個grid的每個anchor box得到8個數(shù)值:
bx,by,bw,bh,Pobj,pnomask,pmask,phead
共獲得26x26x4=2704預(yù)測框數(shù)據(jù);對于Pobj<0.5的預(yù)測框數(shù)據(jù)去除;
對于Pobj<0.5的所有數(shù)據(jù)組,不區(qū)分類別,全部采用非極大值抑制算法;根據(jù)置信概率Pobj從大到小排序,依次剔除IOU大于0.7的重疊框;剩下的預(yù)測框,就是預(yù)測的結(jié)果,每個框取類別概率雖大的類別作為預(yù)測目標(biāo)的類別。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的電梯轎廂人員智能識別方法,其特征在于,所述步驟S5的過程還包括:
S51:把圖像分類模型和目標(biāo)檢測模型部署在圖像識別處理服務(wù)器上;
S52:利用轎廂內(nèi)的攝像頭抓取圖片,上傳到圖像識別服務(wù)器,首先通過圖像分類網(wǎng)絡(luò)進(jìn)行分類預(yù)測,快速確認(rèn)轎廂內(nèi)是否有人.
S53:如果上述分類預(yù)測結(jié)果是“有人”狀態(tài);則調(diào)用目標(biāo)檢測模型進(jìn)行檢測;檢測其中可能存在的3種目標(biāo),得到目標(biāo)框位置和置信概率;
S54:如果發(fā)現(xiàn)”未佩戴口罩”人員,并且置信概率大于系統(tǒng)預(yù)設(shè)的報警門限,則記錄事件信息,同時向轎廂攝像頭發(fā)送提醒語音;
S55:針對所有目標(biāo)數(shù)量求和,得到乘梯人數(shù);保存記錄,用于人流量統(tǒng)計;
S56:如果目標(biāo)檢測模型沒有發(fā)現(xiàn)任何目標(biāo),則標(biāo)記該圖片無人,并且反饋至圖像分類模型,用于圖像分類模型的更新訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京電通慧梯物聯(lián)網(wǎng)科技有限公司,未經(jīng)北京電通慧梯物聯(lián)網(wǎng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010585183.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





