[發(fā)明專利]一種自然場景票據(jù)圖像的提取與矯正方法在審
| 申請?zhí)枺?/td> | 202111345104.2 | 申請日: | 2021-11-15 |
| 公開(公告)號: | CN116109814A | 公開(公告)日: | 2023-05-12 |
| 發(fā)明(設(shè)計)人: | 張健林;林津伊;林紅利 | 申請(專利權(quán))人: | 湖南大學(xué) |
| 主分類號: | G06V10/24 | 分類號: | G06V10/24;G06V30/40;G06T5/00;G06V10/22;G06V10/764;G06V10/80;G06V10/82;G06V10/46;G06V10/44;G06V20/62;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410082 湖南省*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自然 場景 票據(jù) 圖像 提取 矯正 方法 | ||
1.一種自然場景票據(jù)圖像的提取與矯正方法,其特征在于,包括以下步驟:
步驟S01,收集自然場景下拍攝的各類票據(jù)圖像,根據(jù)票據(jù)的類型和票據(jù)文字的方向進行人工分類,從而獲得每張票據(jù)圖像的類型標簽和方向標簽;
步驟S02,對票據(jù)圖像進行預(yù)處理,將票據(jù)圖像統(tǒng)一縮放成固定大小,并對票據(jù)圖像做隨機錯切、旋轉(zhuǎn)、裁剪等圖像增強操作;
步驟S03,構(gòu)建多標簽分類的深度神經(jīng)網(wǎng)絡(luò),對票據(jù)圖像進行類型和文字方向的分類,此神經(jīng)網(wǎng)絡(luò)由一個骨干網(wǎng)絡(luò)DenseNet-169和兩個分支全連接層組成,DenseNet-169負責(zé)從圖像中提取特征,每一個全連接層共享提取的特征信息,分別負責(zé)不同的分類任務(wù);
步驟S04,在訓(xùn)練階段,使用交叉熵損失函數(shù)度量全連接層輸出的預(yù)測結(jié)果與標簽之間的誤差,損失由兩個全連接層計算的誤差乘以不同的權(quán)重參數(shù)并相加得到;在反向傳播時,利用SGD優(yōu)化器得到損失最低的多標簽分類模型;
步驟S05,利用訓(xùn)練好的多標簽分類模型對待分類的票據(jù)圖像進行分類,得到圖像的票據(jù)類型和文字方向,接著根據(jù)得到的文字方向?qū)ζ睋?jù)圖像進行旋轉(zhuǎn)矯正;
步驟S06,收集自然場景中拍攝的各類票據(jù),并在收集的圖像上人工地將票據(jù)的主體區(qū)域使用多邊形標出;
步驟S07,對標注的圖像進行數(shù)據(jù)清洗,減少數(shù)據(jù)標注的錯誤,在標注的圖像上隨機地加入圖像增強操作,并根據(jù)標注的坐標轉(zhuǎn)化為掩膜圖像作為訓(xùn)練的標簽;
步驟S08,采用深度學(xué)習(xí)顯著區(qū)域提取網(wǎng)絡(luò)U2-Net,處理自然場景中的票據(jù)圖像,提取各類票據(jù)的主體區(qū)域,此神經(jīng)網(wǎng)絡(luò)由嵌套的U-Net網(wǎng)絡(luò)組成,每一層的U-Net輸出該層預(yù)測的特征圖,并將這些輸出的特征圖融合得到票據(jù)主體區(qū)域的概率圖;
步驟S09,U2-Net訓(xùn)練階段的損失函數(shù)由每一層輸出的特征圖與標注區(qū)域掩膜的交叉熵損失相加組成,訓(xùn)練時使用Adam優(yōu)化器,最后保存損失最低的模型;
步驟S10,輸入自然場景中的票據(jù)圖像到訓(xùn)練好的模型中,得到票據(jù)主體區(qū)域的概率圖,根據(jù)輸出的概率圖映射到原圖中的區(qū)域,獲得票據(jù)主體區(qū)域圖;
步驟S11,根據(jù)步驟S05獲得的票據(jù)類型與步驟S10得到票據(jù)的主體區(qū)域,使用后處理的方法對票據(jù)的視角和文字小角度進行微調(diào),得到無背景干擾、文字方向為正的票據(jù)主體區(qū)域。
2.根據(jù)權(quán)利要求1所述的一種自然場景票據(jù)圖像的提取與矯正方法,其特征在于,步驟S03所述的多標簽分類的深度神經(jīng)網(wǎng)絡(luò)由一個骨干網(wǎng)絡(luò)DenseNet-169和兩個分支全連接層組成,主要結(jié)構(gòu)如下:
DenseNet-169主要由四個具有緊密連接性質(zhì)的稠密塊(Dense?Block)組成,相鄰兩個稠密塊之間有一層過渡層(Transition?Layer)。
在DenseNet-169最后輸出的特征圖上,分別接了兩個全連接層,共享特征圖信息,處理不同的分類任務(wù)。
3.根據(jù)權(quán)利要求1所述的一種自然場景票據(jù)圖像的提取與矯正方法,其特征在于,步驟S07中所述的數(shù)據(jù)增強與訓(xùn)練標簽的生成,具體步驟如下:
步驟S07-1,在標注數(shù)據(jù)上檢查標注票據(jù)主體區(qū)域的關(guān)鍵點是否正確,形成初始數(shù)據(jù)集;
步驟S07-2,隨機地選擇加入圖像縮放、直方圖變換化、亮度變化、高斯模糊、方向旋轉(zhuǎn)、椒鹽噪聲等圖像增強方法操作的一種或者多種,作為訓(xùn)練數(shù)據(jù)集的一部分;
步驟S07-3,訓(xùn)練數(shù)據(jù)集中人工標注的票據(jù)主體區(qū)域關(guān)鍵點,將標注的票據(jù)主體區(qū)域與自然背景區(qū)域做劃分并提取,并生成原圖的掩膜作為訓(xùn)練標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué),未經(jīng)湖南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111345104.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





