[發明專利]一種識別作文稿紙的手寫文本識別并復現文本結構的方法在審
| 申請號: | 202111551666.2 | 申請日: | 2021-12-17 |
| 公開(公告)號: | CN114241492A | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 黎旭民;麥永欽;林超純;張秀屏;羅彥卓;董祖蘭;陳栩杰;藍文輝;張博 | 申請(專利權)人: | 黑盒科技(廣州)有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V20/62;G06V10/774;G06V30/19;G06V10/44;G06V10/26;G06V30/148;G06V10/762;G06V10/764;G06V10/30;G06V10/56 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 侯騰騰 |
| 地址: | 511458 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 作文 稿紙 手寫 文本 復現 結構 方法 | ||
1.一種識別作文稿紙的手寫文本識別并復現文本結構的方法,其特征在于,包括以下步驟:
步驟1:使用拍攝設備拍取一頁手寫作文圖片,初步進行調整;
步驟2:對圖片進行特定預處理操作,將原始圖片進行文本矯正,得到待識別的圖片;
步驟3:將待識別的圖片利用使用特定數據集進行訓練的文字檢測算法模型檢測每一行的手寫文本區域,同時獲取每一個文本區域在圖像中位置信息;
步驟4:對于檢測到的每一行文本區域,使用特定數據集進行訓練的文本識別算法模型快速識別出手寫的文本內容;
步驟5:結合步驟3與步驟4文本區域在圖像中位置信息和文本內容信息進行分析,從而還原真實的作文文本內容和結構。
2.如權利要求1所述的一種識別作文稿紙的手寫文本識別并復現文本結構的方法,其特征在于:所述步驟1拍攝的作文圖片局限于中文的作文和英文的作文,作文的稿紙包括但不限于格子、橫線、白紙的稿紙模板。
3.如權利要求1所述的一種識別作文稿紙的手寫文本識別并復現文本結構的方法,其特征在于,所述步驟2對圖片進行特定預處理操作,將原始圖片進行文本矯正,具體為:
步驟2-1、對原始圖片進行高斯濾波操作;
步驟2-2、對步驟2-1得到的圖片進行灰度操作;
步驟2-3、對步驟2-2得到的圖片進行Canny邊緣檢測,得到格子或橫線以及手寫文本的大致邊緣輪廓;
步驟2-4、對步驟2-3的帶的圖片進行霍夫變換檢測直線,即對每個邊緣像素(x,y),根據公式:
ρ=x0cos(θ)+y0sin(θ)
獲得對應的ρ值,得到每個邊緣像素的曲線后,通過計算所在的平面中各交點所在的曲線數量來檢測出直線,定義曲線數量閾值為α,即在某點相交的曲線數量大于該閾值,才認為該點在圖像中對應一條直線,并記錄該直線信息(θ,ρ),θ表示水平方向偏轉角度,范圍(0,180];
步驟2-5、計算每條直線的角度,在有格子的情況下,對于豎直的直線即大于45°或小于135°的直接去掉,同時對于相對多數量的直線進行加權平均,得到的角度即為需要調整的角度θ;
步驟2-6:對步驟2-5得到θ,當θ∈[0°,45°]時,圖片順時針旋轉θ;當θ∈[135°,180°]時,圖片逆時針旋轉180°-θ;最后,矯正得到的圖片即為待識別的圖片。
4.如權利要求1所述的一種識別作文稿紙的手寫文本識別并復現文本結構的方法,其特征在于:所述步驟3的特定數據集由計算機生成,特定數據集的主要特征是以水平方向上的文本行作為標注特征。
5.如權利要求1所述的一種識別作文稿紙的手寫文本識別并復現文本結構的方法,其特征在于:所述步驟3的文字檢測算法模型包括但不限于DBNet、SAST、EAST、YOLOx網絡模型,骨干網絡使用ResNet50,訓練方法在數據輸入是對圖片0.3概率進行數據增強,增強方法如下:
步驟3-1、設置有0.3的概率進行圖片亮度調整:將RGB圖片轉換成HLS空間,隨機改變L通道參數的值,即令L*random([0.8,1.2]);
步驟3-2、設置有0.3的概率進行圖片模糊處理:對于每個像素點均值μ=0,高斯核大小(5,5)和高斯函數標準差σ=1.5;
步驟3-3、設置有0.3的概率進行圖片添加噪點操作,隨機生成每個位置數值在該范圍[-10,10]的三維矩陣,并和圖片矩陣進行相加操作。
6.如權利要求1所述的一種識別作文稿紙的手寫文本識別并復現文本結構的方法,其特征在于:所述步驟3將待識別的圖片經過文字檢測算法模型后得到的結果為每一文本行的矩形框在圖像中像素位置信息,同時記錄得到每一文本行區域位置信息組;所述矩形框在圖像中像素位置信息的表現形式為像素坐標點的位置與原圖片大小相結合,顯示每一行的手寫文本區域信息形式不限于使用以下表示方法:矩形框的四角坐標、左上角像素坐標加右下角像素坐標、左上角像素坐標加水平方向框的長度和垂直方向框的長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑盒科技(廣州)有限公司,未經黑盒科技(廣州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111551666.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一株圓紅球菌噬菌體P19及其應用
- 下一篇:一種閘閥用注蠟模具





