[發(fā)明專利]圖像文本方向分類方法、裝置、設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110232357.2 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112766418A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設計)人: | 楊帆;楊兆斌;車成富 | 申請(專利權(quán))人: | 陽光財產(chǎn)保險股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/20;G06K9/32 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
| 地址: | 101100 北京市通*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 文本 方向 分類 方法 裝置 設備 存儲 介質(zhì) | ||
本申請?zhí)峁┮环N圖像文本方向分類方法、裝置、設備及存儲介質(zhì),方法包括:獲取已標注文本圖像樣本集合;根據(jù)已標注文本圖像樣本集合生成文本檢測模型;根據(jù)已標注文本圖像樣本集合生成圖像文本方向二分類模型;將輸入圖像輸入文本檢測模型,得到文本字段外接矩形框集合;從文本字段外接矩形框集合中篩選預設數(shù)量的外接矩形框,根據(jù)外接矩形框的寬高比獲取輸入圖像中的文本的初步方向;初步方向為橫向或縱向;根據(jù)外接矩形框的坐標從輸入圖像中裁剪得到對應的預測文本串圖像集合;將預測文本串圖像集合中的圖像輸入圖像文本方向二分類模型,得到預測文本串圖像二分類方向集合;根據(jù)預測文本串圖像二分類方向集合和初步方向獲取輸入圖像的文本方向。
技術(shù)領域
本申請涉及圖像識別技術(shù)領域,具體而言,涉及一種圖像文本方向分類方法、裝置、設備及存儲介質(zhì)。
背景技術(shù)
目前,隨著圖像識別技術(shù)的發(fā)展,自動識別文本已經(jīng)成為可能,文本利用計算機自動識別字符的技術(shù),是模式識別應用的一個重要領域。自動識別文本技術(shù)使得人們在生產(chǎn)和生活中需要處理大量的文字、報表和文本等場景下減輕人們的勞動,提高處理效率。
在各種實際的應用場景中,需要對大量的文本圖像文件進行內(nèi)容核驗,而相當一部分文本圖像文件并非水平方向,而是存在各個方向的旋轉(zhuǎn),主要包還含90度,180度,270度等方向,目前大量的機器學習算法在識別文本內(nèi)容時都需要文本圖像按照預定角度范圍輸入,因此在進行文本識別前需要首先對圖像文本進行矯正,而已有的文本方向自動矯正算法都存在一定的精度損失,精度提升存在瓶頸,需要一定的人工介入矯正,浪費大量時間。
發(fā)明內(nèi)容
本申請實施例的目的在于提供一種圖像文本方向分類方法、裝置、設備及存儲介質(zhì)。
第一方面,本申請實施例提供了一種圖像文本方向分類方法,所述方法包括:
獲取已標注文本圖像樣本集合;
根據(jù)所述已標注文本圖像樣本集合生成文本檢測模型;
根據(jù)所述已標注文本圖像樣本集合生成圖像文本方向二分類模型;
將輸入圖像輸入所述文本檢測模型,得到文本字段外接矩形框集合;
從所述文本字段外接矩形框集合中篩選預設數(shù)量的外接矩形框,根據(jù)所述外接矩形框的寬高比獲取所述輸入圖像中的文本的初步方向;
所述初步方向為橫向或縱向;
根據(jù)所述外接矩形框的坐標從輸入圖像中裁剪得到對應的預測文本串圖像集合;
將所述預測文本串圖像集合中的圖像輸入所述圖像文本方向二分類模型,得到預測文本串圖像二分類方向集合;
根據(jù)所述預測文本串圖像二分類方向集合和所述初步方向獲取所述輸入圖像的文本方向。
在上述實現(xiàn)過程中,分別建立了文本檢測模型和圖像文本方向二分類模型,所述文本檢測模型和所述圖像文本方向二分類模型是整個算法的關鍵。所述文本檢測模型能對四個方向(0度,90度,180度,270度)的文本進行有效檢測,所述圖像文本方向二分類模型的輸出結(jié)果準確率高,使整個模型的性能提升。將輸入圖像輸入到所述文本檢測模型之后得到文本字段外接矩形框集合,根據(jù)所述外接矩形框的寬高比,初步判定輸入圖像為橫向或者縱向。所述外接矩形框集合還能有效地從輸入圖像中進一步獲取所需要的預測文本串圖像集合,最后將預測文本串圖像輸入所述圖像文本方向二分類模型,通過圖像文本方向二分類模型的二分類作用能得到預測文本串圖像二分類方向集合,結(jié)合對所述輸入圖像的初步判定的結(jié)果,最終通過分析能判斷出輸入圖像文本方向。
進一步地,在第一方面的一種可能的實施方式中,所述已標注文本圖像樣本集合中每張圖像文本方向均為0度,且對應標注信息,所述標注信息包括文本字段外接矩形框位置坐標;
所述根據(jù)所述已標注文本圖像樣本集合生成文本檢測模型包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于陽光財產(chǎn)保險股份有限公司,未經(jīng)陽光財產(chǎn)保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110232357.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





