[發明專利]一種文檔圖片分類方法在審
| 申請號: | 201810309072.2 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108595544A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 賴榮鳳;黃賢俊 | 申請(專利權)人: | 深源恒際科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/34;G06K9/62 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 100086 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔圖片 目標檢測 文本分類 神經網絡 圖片轉化 文檔類型 文字識別 細微差別 行駛證 銀行卡 分類 駕駛證 準確率 歸類 算法 護照 身份證 視覺 圖片 | ||
本發明公開了一種文檔圖片分類方法,使用目標檢測方法,從視覺上判斷圖片中是否出現身份證、銀行卡、行駛證、駕駛證、護照、營業執照等具有很強特征,類別間差距很大的文檔類型,目標檢測的方法可以快速準確的處理這些類別的文檔圖片,對應其他類別的文檔圖片,先用基于深度神經網絡的文字識別算法把圖片轉化為文字,然后使用文本分類方法來處理歸類識別的文字,文本分類的方法能區分細微差別,準確率高。
技術領域
本發明涉及一種分類方法,具體是一種文檔圖片分類方法。
背景技術
保險公司為建立保單檔案時,需要收集整理大量的文檔,并分門別類管理存儲。隨著數字化的革命,目前所有文檔都需要拍攝成數字圖片。本發明就是用于這些文檔圖片的自動分類。保險公司常見的文檔類別超過上百種,有些類別之間的差距還非常小,如:門診發票和住院發票的差不往往就提現在幾個不同的文字之間。文檔類別多,類別間差別小,導致此任務非常困難。為此,我們創造性的結合圖片分類、目標檢測、文字識別和文本分類等方法,取得極高的分類準確率。
現有技術的缺陷
1.圖片分類的方法:目前基于深度卷積神經網絡的圖片分類方法取得了很大的突破,在一些圖片分類的任務上甚至超越了人類的水平。但是,現有的圖片分類技術是針對特征和差別顯著的類別,比如:區分貓和狗,它還無法在精細的分類上確定好的準確率。因而,現有圖片分類技術無法準確的區分某些差別微小的文檔類型。
2.目標檢測的方法:基于深度學習的目標檢測的方法在一般的任務下有很好的準確率。比如:它可以準確地從文檔圖片中判斷是否有身份證、銀行卡等目標。然而,面對細微差別的門診發票和住院發票,目標檢測方法也無能為力。
3.文本分類的方法:文本分類的方法歷史悠久發展也必將成熟,能區分細微的文字差異。但它無法直接用于文檔圖片的分類。
發明內容
本發明的目的在于提供一種文檔圖片分類方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種文檔圖片分類方法,包括如下步驟:(1)首先用目標檢測算法從文檔圖片中檢測身份證、銀行卡、駕駛證、行駛證、營業執照、從業資格證、道路交通運輸證證件,若檢測成功,則直接判別文檔類別;(2)若檢測失敗,則進入具有文本分類的處理流程:2.1用文字檢測算法把圖片中的文字串的位置信息檢測出來;2.2使用文字識別模型識別檢測出來的文字串,再將所有文字串按出現位置順序組合成文檔;2.3使用文本分類算法,將識別文檔歸類,該類別即文檔圖片所屬類別。
作為本發明進一步的方案:所述目標檢測算法包括Faster RCNN、SSD、YOLO。
作為本發明進一步的方案:所述文字檢測算法既能夠使用通用的目標檢測算法,也能夠使用專門為文字檢測優化過后的算法。
作為本發明進一步的方案:所述通用的目標檢測算法,包括:Faster RCNN、SSD、YOLO。
作為本發明再進一步的方案:所述專門為文字檢測優化過后的算法,包括:EAST、RRCNN、TextBoxes、CTPN。
與現有技術相比,本發明的有益效果是:本發明使用目標檢測方法,從視覺上判斷圖片中是否出現身份證、銀行卡、行駛證、駕駛證、護照、營業執照等具有很強特征,類別間差距很大的文檔類型,目標檢測的方法可以快速準確的處理這些類別的文檔圖片,對應其他類別的文檔圖片,先用基于深度神經網絡的文字識別算法把圖片轉化為文字,然后使用文本分類方法來處理歸類識別的文字,文本分類的方法能區分細微差別,準確率高。
附圖說明
圖1為文檔圖片分類方法的流程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深源恒際科技有限公司,未經深源恒際科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810309072.2/2.html,轉載請聲明來源鉆瓜專利網。





