[發(fā)明專利]一種基于語義指導的自然場景下屏幕區(qū)域檢測方法有效
| 申請?zhí)枺?/td> | 202011004389.9 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112150493B | 公開(公告)日: | 2022-10-04 |
| 發(fā)明(設(shè)計)人: | 黃勝;冉浩杉;張盛峰;李洋洋;付川 | 申請(專利權(quán))人: | 重慶郵電大學 |
| 主分類號: | G06T7/13 | 分類號: | G06T7/13;G06T3/40;G06T3/00;G06N3/04;G06V10/82;G06V10/80;G06V10/26;G06V10/774;G06V20/70 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 指導 自然 場景 屏幕 區(qū)域 檢測 方法 | ||
1.一種基于語義指導的自然場景下屏幕區(qū)域檢測方法,其特征在于,能夠?qū)ψ匀粓鼍跋屡臄z的屏幕圖片進行處理,得到其屏幕內(nèi)容,具體包括以下步驟:
步驟1、采集用戶手機拍攝的場景屏幕圖像,并對輸入圖像進行預處理;
步驟2、構(gòu)建一個基于語義指導的邊緣檢測網(wǎng)絡(luò),包括特征提取模塊、圖像分割模塊、圖像邊緣檢測模塊以及語義指導融合模塊;其中,圖像分割模塊通過反卷積構(gòu)建一條擴展路徑提取圖像語義信息特征以及圖像分割;圖像邊緣檢測模塊通過一個具有注意力機制的多尺度特征融合模塊(Feature FusionModule)來進行邊緣特征提取以及融合;語義指導融合模塊將圖像分割模塊提取到的語義特征與圖像邊緣檢測模塊的邊緣特征進行融合,得到語義指導下的精細化邊緣圖像;
步驟3、通過遷移學習的方式,使用自制屏幕邊緣數(shù)據(jù)集對網(wǎng)絡(luò)進行微調(diào);
步驟4、在訓練完成后的神經(jīng)網(wǎng)絡(luò)上對輸入圖像進行屏幕邊緣檢測,得到屏幕邊緣圖像;
步驟5、利用得到的屏幕邊緣圖像進行后處理操作,結(jié)合屏幕邊緣特征篩選出圖像中四個屏幕角點,并且經(jīng)過仿射變換進行傾斜角度矯正,得到最終的屏幕內(nèi)容圖像。
2.根據(jù)權(quán)利要求1所述的一種基于語義指導的自然場景下屏幕區(qū)域檢測方法,其特征在于,特征提取模塊由去掉VGG16的全連接層后構(gòu)成的全卷積網(wǎng)絡(luò)組成,并且為了在不丟失大量局部信息的情況下增大網(wǎng)絡(luò)的感受野,在最后兩層卷積層中加入了混合膨脹卷積(Hybrid Dilated Convolution)的方法,在卷積層中設(shè)置一組三個不同膨脹率(DilationRate)的卷積核依次進行卷積,能夠減少膨脹卷積產(chǎn)生的空洞并增大感受野。
3.根據(jù)權(quán)利要求1所述的一種基于語義指導的自然場景下屏幕區(qū)域檢測方法,其特征在于,圖像邊緣檢測模塊中通過具有注意力機制的多尺度特征融合模塊(Feature FusionModule)進行圖像特征融合,此模塊使用SE Block與ResneXt Block相結(jié)合得到的SEResneXt模塊;主干網(wǎng)絡(luò)中每一層Block塊的不同尺度的特征圖輸出在進入多尺度特征融合模塊之后,都經(jīng)過SE ResneXt模塊,先進行具有殘差組卷積結(jié)構(gòu)的ResnetXt操作豐富輸入特征圖語義信息,然后進行Squeeze and Excitation(SE)操作,賦予各通道的一個可學習權(quán)重,使得模型主動學習特征圖各通道的重要程度,并能夠按照這個重要程度去提升有用的特征并抑制對當前任務(wù)用處不大的特征。
4.根據(jù)權(quán)利要求1所述的一種基于語義指導的自然場景下屏幕區(qū)域檢測方法,其特征在于,語義指導融合模塊通過利用邊緣檢測模塊以及圖像分割模塊提取到的圖像特征進行融合,利用圖像分割模塊提取到的語義特征指導模型輸出更加精細的圖像邊緣特征;在語義指導融合模塊中定義了新的模型損失函數(shù)融合兩種輸出特征信息并在邊緣標簽的指導下進行訓練,其新定義的損失函數(shù)表示為:
L=Lfusion(f(Fseg,Fedge|X;W);Wf)
其中Fseg為圖像分割模塊提取到的語義特征,F(xiàn)edge為圖像邊緣檢測模塊提取到的邊緣特征,f(*|W)表示特征圖融合操作,W表示其中卷積操作的參數(shù);Lfusion(F;Wf)表示采用的交叉熵函數(shù),表述為:
其中,F(xiàn)i為特征圖中的第i個像素,Pr(yi|Fi)為在像素yi上的分類置信度,N為圖像像素總數(shù),Wf為圖像分割任務(wù)中訓練參數(shù)的集合。
5.根據(jù)權(quán)利要求1所述的一種基于語義指導的自然場景下屏幕區(qū)域檢測方法,其特征在于,對于屏幕邊緣圖像的后處理操作中主要包括:基于霍夫變換對屏幕邊緣圖像進行直線檢測,并且去除重合直線,將直線交點排序作為集合,每次取四個點計算周長以及所圍面積,滿足兩者最大的便認為是自然場景下的屏幕邊緣角點;最后使用屏幕角點以及仿射變換進行屏幕傾斜角度矯正,最終得到屏幕內(nèi)容圖像。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學,未經(jīng)重慶郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004389.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:輸變電線路防小動物裝置
- 下一篇:一種封閉式電力配電柜高頻防老化降溫裝置





