[發明專利]對文本圖片OCR結果進行高準確率分行的方法有效
| 申請號: | 202011461822.1 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112396056B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 雷幫文 | 申請(專利權)人: | 杭州米數科技有限公司 |
| 主分類號: | G06V30/18 | 分類號: | G06V30/18;G06V30/148;G06F40/189;G06F40/289 |
| 代理公司: | 杭州融方專利代理事務所(普通合伙) 33266 | 代理人: | 沈相權 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 圖片 ocr 結果 進行 準確率 分行 方法 | ||
本發明公開了一種對文本圖片OCR結果進行高準確率分行的方法。屬于文本圖片OCR準確率分行技術領域,提供一種易于對OCR結果進行高準確分行,可靠性高,方法的實現過程如下:開始,進行第一遍分行,取第一次分行的最優行,然后基于找到的最優行進行往上和往下再次分行,然后結合往上和往下分行的結果進行合并,最后得到分好行后的結果。
技術領域
本發明涉及文本圖片OCR準確率分行技術領域,具體涉及一種對文本圖片OCR結果進行高準確率分行的方法。
背景技術
目前對于非常標準、用人眼看起來就是從左到右、從上到下的文本圖片的光學字符識別OCR(OpticalCharacterRecognition),要對其OCR結果進行分行,則非常簡單,一般按照正常分行方法,從左到右、從上到下按x坐標和y坐標進行排序遍歷,新的框距離最新的一行的距離超過某個閾值時,則是新的一行,否則是當前的行,依次遍歷所有OCR結果框,即可分行。
但是對于實際場景中,圖片往往大部分都存在扭曲、透視和旋轉的問題,以上用于非常標準的圖片的分行算法思路將不再適用。
發明內容
本發明是為了解決現在對OCR結果進行高準確分行不便,提供一種易于對OCR結果進行高準確分行,可靠性高的對文本圖片OCR結果進行高準確率分行的方法。
為實現以上目的,本發明通過以下技術方案予以實現:
對文本圖片OCR結果進行高準確率分行的方法,方法的實現過程如下:
步驟1,對OCR結果框依次進行x、y坐標遞增排序;
步驟2,按排序后的順序依次遍歷OCR框,其中第一個框必定是第一行,也是最新的一行,記作L_1,讀作第1行,以此類推,第N行記作L_n,讀作第n行,最新的一行記作L_new;
步驟3,依次遍歷接下來的OCR框,把遍歷到的OCR框記作H框;嘗試放到某一行中,嘗試規則按步驟4執行;
步驟4,嘗試把H框放到第L_(new-4)中,判定H框是否屬于L(new-4),如果屬于則放到該行,不屬于則判定H框在L_(new-4)行的上一行還是在L_(new-4)行的下一行;如果是在L_(new-4)行的上一行則嘗試放到L_(new-5)上,如果是在L_(new-4)行的下一行則嘗試放到L_(new-3)上;
以此類推,如果判定到L_new的時候,H框任然處于L_new之下,則創建新行并把H框放到新創建的最新的行中,重復新的H框判定;判定一個H框是否屬于某一行,按步驟5的規則判定執行;
步驟5,如果L_new的框個數不足兩個或者該行的唯一一個框的寬高比不足5,則按步驟6處理,否則按步驟7步處理;
步驟6,取H框的往上和往下各15個OCR框的平均斜率作為對齊斜率,過H框的中點用此斜率虛擬出一條直線F,如果這條直線F過待判定的行距離H框最近的一個框的距離低于某個閾值,則H框屬于該行,否則屬于上一行或者下一行;
步驟7,取H框距離該行往上的一行最近的兩個框的中點連接線斜率作為參考的直線F斜率,過H框的中點用此斜率虛擬出一條直線F,如果這條直線F過待判定的行距離H框最近的一個框的距離低于某個閾值,則H框屬于該行,否則屬于上一行或者下一行;
步驟8,經過上面7個步驟后,會得到第一版的分行結果,然后在分行結果中找出最優的一行,最優判定條件為,某行中兩個鄰近框的連接線斜率差最小,同時OCR框斜率差也為最小,則分行結果就為最優行;
步驟9,用最優行作為初始參考行,然后取最優行往上的所有OCR框和最優行往下的所有OCR框再次進行步驟1到步驟7后得到兩份分行結果,然后再拼成一個完整分行結果,至此分行結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州米數科技有限公司,未經杭州米數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011461822.1/2.html,轉載請聲明來源鉆瓜專利網。





