[發(fā)明專利]基于深度學習的視頻場景文本檢測方法、系統(tǒng)、設備及介質(zhì)在審
| 申請?zhí)枺?/td> | 201910089785.7 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109919025A | 公開(公告)日: | 2019-06-21 |
| 發(fā)明(設計)人: | 黃雙萍;伍思航;楊弈才;伍冠中 | 申請(專利權(quán))人: | 華南理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 廣州市華學知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李君 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經(jīng)網(wǎng)絡 預處理 場景文本 視頻場景 文本檢測 文本圖像數(shù)據(jù) 圖像數(shù)據(jù) 自然場景 端到端 計算機視覺 無人機飛行 視頻語義 文字識別 優(yōu)化訓練 治安監(jiān)控 自動駕駛 字幕翻譯 回歸 安防 構(gòu)建 學習 視頻 場景 檢測 應用 | ||
1.一種基于深度學習的視頻場景文本檢測方法,其特征在于,所述方法包括:
獲取靜態(tài)自然場景文本圖像數(shù)據(jù);
對靜態(tài)自然場景文本圖像數(shù)據(jù)進行預處理,得到預處理場景文本圖像數(shù)據(jù);
構(gòu)建基于回歸的端到端深度卷積神經(jīng)網(wǎng)絡模型;
使用預處理場景文本圖像數(shù)據(jù)對深度卷積神經(jīng)網(wǎng)絡模型進行優(yōu)化訓練;
利用訓練后的深度卷積神經(jīng)網(wǎng)絡模型進行視頻場景文本檢測。
2.根據(jù)權(quán)利要求1所述的視頻場景文本檢測方法,其特征在于,所述對靜態(tài)自然場景文本圖像數(shù)據(jù)進行預處理,具體包括:
篩選并棄用成像質(zhì)量低的靜態(tài)自然場景文本圖像;
篩選并棄用場景文本肉眼難以辨認的靜態(tài)自然場景文本圖像;
篩選并棄用場景文本過于繁多復雜的靜態(tài)自然場景文本圖像;
根據(jù)擬定的標準對篩選后保留的靜態(tài)自然場景文本圖像進行標注;其中,所述擬定的標準為:使用水平矩形緊密地包圍圖片中的場景文本;
隨機抽取標注后的靜態(tài)自然場景文本圖像劃分為訓練集或測試集。
3.根據(jù)權(quán)利要求1所述的視頻場景文本檢測方法,其特征在于,所述構(gòu)建基于回歸的端到端深度卷積神經(jīng)網(wǎng)絡模型,具體包括:
構(gòu)建提取圖像特征主干網(wǎng)絡;其中,所述提取圖像特征主干網(wǎng)絡的頂端包括第一卷積層和第二卷積層,第一卷積層和第二卷積層之后順序級聯(lián)五個帶有殘差結(jié)構(gòu)的卷積模塊;
根據(jù)提取圖像特征主干網(wǎng)絡,構(gòu)建多尺度特征融合預測網(wǎng)絡。
4.根據(jù)權(quán)利要求3所述的視頻場景文本檢測方法,其特征在于,所述殘差結(jié)構(gòu)在整個卷積模塊在末尾的卷積層輸出之外,記為F(t),還有一個分支將該卷積模塊的輸入,記為t,直接連到輸出上,兩者相加得到該卷積模塊最終的輸出,記為H(t);
第一個卷積模塊包括順序級聯(lián)的一組殘差結(jié)構(gòu),每組殘差結(jié)構(gòu)包含兩個第三卷積層;第一個卷積模塊之后順序級聯(lián)第四卷積層作為下采樣;
第二個卷積模塊包括順序級聯(lián)的兩組殘差結(jié)構(gòu),每組殘差結(jié)構(gòu)包含兩個第五卷積層;第二個卷積模塊之后順序級聯(lián)第六卷積層作為下采樣;
第三個卷積模塊包括順序級聯(lián)的八組殘差結(jié)構(gòu),每組殘差結(jié)構(gòu)包含兩個第七卷積層;第三個卷積模塊之后順序級聯(lián)第八卷積層作為下采樣;
第四個卷積模塊包括順序級聯(lián)的八組殘差結(jié)構(gòu),每組殘差結(jié)構(gòu)包含兩個第九卷積層;第四個卷積模塊之后順序級聯(lián)第十卷積層作為下采樣;
第五個卷積模塊包括順序級聯(lián)的四組殘差結(jié)構(gòu),每組殘差結(jié)構(gòu)包含兩個第十一卷積層。
5.根據(jù)權(quán)利要求3所述的視頻場景文本檢測方法,其特征在于,所述根據(jù)提取圖像特征主干網(wǎng)絡,構(gòu)建多尺度特征融合預測網(wǎng)絡,具體包括:
第一次特征融合:將第五個卷積模塊的輸出經(jīng)過壓縮模塊進行特征壓縮,對該特征在長寬維度進行兩倍的雙線性插值的上采樣操作,使之與第四個卷積模塊的輸出的長寬維度相同,將兩者特征在通道數(shù)上進行相加融合;
第二次特征融合:將第一次特征融合的輸出經(jīng)過壓縮模塊進行特征壓縮,對該特征在長寬維度進行兩倍的雙線性插值的上采樣操作,使之與第三個卷積模塊的輸出長寬維度相同,將兩者特征在通道數(shù)上進行相加融合;
第一次預測:在第五個卷積模塊的輸出經(jīng)過壓縮模塊進行特征壓縮后,接上第十二卷積層,輸出大小為(width5,height5,N*6)的特征向量;其中,N表示特征向量長寬維度上,每個點預測N個文本目標邊界框,每個邊界框包含該邊界框所回歸的四個坐標偏移量、置信度以及類別;
第二次預測:在第一次特征融合的輸出經(jīng)過壓縮模塊進行特征壓縮后,接上第十三卷積層,輸出大小為(width4,height4,N*6)的特征向量;
第三次預測:在第二次特征融合的輸出經(jīng)過壓縮模塊進行特征壓縮后,接上第十四卷積層,輸出大小為(width3,height3,N*6)的特征向量。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910089785.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 終端卷積神經(jīng)網(wǎng)絡的處理方法、裝置、存儲介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡的圖像深度估計方法
- 卷積神經(jīng)網(wǎng)絡的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡的處理方法、裝置、設備及存儲介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡的訓練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡的方法
- 卷積神經(jīng)網(wǎng)絡處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡的聲音事件檢測方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡的目標檢測方法及檢測裝置





