[發明專利]基于深度學習的視頻場景文本檢測方法、系統、設備及介質在審
| 申請號: | 201910089785.7 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109919025A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 黃雙萍;伍思航;楊弈才;伍冠中 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李君 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 預處理 場景文本 視頻場景 文本檢測 文本圖像數據 圖像數據 自然場景 端到端 計算機視覺 無人機飛行 視頻語義 文字識別 優化訓練 治安監控 自動駕駛 字幕翻譯 回歸 安防 構建 學習 視頻 場景 檢測 應用 | ||
1.一種基于深度學習的視頻場景文本檢測方法,其特征在于,所述方法包括:
獲取靜態自然場景文本圖像數據;
對靜態自然場景文本圖像數據進行預處理,得到預處理場景文本圖像數據;
構建基于回歸的端到端深度卷積神經網絡模型;
使用預處理場景文本圖像數據對深度卷積神經網絡模型進行優化訓練;
利用訓練后的深度卷積神經網絡模型進行視頻場景文本檢測。
2.根據權利要求1所述的視頻場景文本檢測方法,其特征在于,所述對靜態自然場景文本圖像數據進行預處理,具體包括:
篩選并棄用成像質量低的靜態自然場景文本圖像;
篩選并棄用場景文本肉眼難以辨認的靜態自然場景文本圖像;
篩選并棄用場景文本過于繁多復雜的靜態自然場景文本圖像;
根據擬定的標準對篩選后保留的靜態自然場景文本圖像進行標注;其中,所述擬定的標準為:使用水平矩形緊密地包圍圖片中的場景文本;
隨機抽取標注后的靜態自然場景文本圖像劃分為訓練集或測試集。
3.根據權利要求1所述的視頻場景文本檢測方法,其特征在于,所述構建基于回歸的端到端深度卷積神經網絡模型,具體包括:
構建提取圖像特征主干網絡;其中,所述提取圖像特征主干網絡的頂端包括第一卷積層和第二卷積層,第一卷積層和第二卷積層之后順序級聯五個帶有殘差結構的卷積模塊;
根據提取圖像特征主干網絡,構建多尺度特征融合預測網絡。
4.根據權利要求3所述的視頻場景文本檢測方法,其特征在于,所述殘差結構在整個卷積模塊在末尾的卷積層輸出之外,記為F(t),還有一個分支將該卷積模塊的輸入,記為t,直接連到輸出上,兩者相加得到該卷積模塊最終的輸出,記為H(t);
第一個卷積模塊包括順序級聯的一組殘差結構,每組殘差結構包含兩個第三卷積層;第一個卷積模塊之后順序級聯第四卷積層作為下采樣;
第二個卷積模塊包括順序級聯的兩組殘差結構,每組殘差結構包含兩個第五卷積層;第二個卷積模塊之后順序級聯第六卷積層作為下采樣;
第三個卷積模塊包括順序級聯的八組殘差結構,每組殘差結構包含兩個第七卷積層;第三個卷積模塊之后順序級聯第八卷積層作為下采樣;
第四個卷積模塊包括順序級聯的八組殘差結構,每組殘差結構包含兩個第九卷積層;第四個卷積模塊之后順序級聯第十卷積層作為下采樣;
第五個卷積模塊包括順序級聯的四組殘差結構,每組殘差結構包含兩個第十一卷積層。
5.根據權利要求3所述的視頻場景文本檢測方法,其特征在于,所述根據提取圖像特征主干網絡,構建多尺度特征融合預測網絡,具體包括:
第一次特征融合:將第五個卷積模塊的輸出經過壓縮模塊進行特征壓縮,對該特征在長寬維度進行兩倍的雙線性插值的上采樣操作,使之與第四個卷積模塊的輸出的長寬維度相同,將兩者特征在通道數上進行相加融合;
第二次特征融合:將第一次特征融合的輸出經過壓縮模塊進行特征壓縮,對該特征在長寬維度進行兩倍的雙線性插值的上采樣操作,使之與第三個卷積模塊的輸出長寬維度相同,將兩者特征在通道數上進行相加融合;
第一次預測:在第五個卷積模塊的輸出經過壓縮模塊進行特征壓縮后,接上第十二卷積層,輸出大小為(width5,height5,N*6)的特征向量;其中,N表示特征向量長寬維度上,每個點預測N個文本目標邊界框,每個邊界框包含該邊界框所回歸的四個坐標偏移量、置信度以及類別;
第二次預測:在第一次特征融合的輸出經過壓縮模塊進行特征壓縮后,接上第十三卷積層,輸出大小為(width4,height4,N*6)的特征向量;
第三次預測:在第二次特征融合的輸出經過壓縮模塊進行特征壓縮后,接上第十四卷積層,輸出大小為(width3,height3,N*6)的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910089785.7/1.html,轉載請聲明來源鉆瓜專利網。





