[發明專利]一種文檔圖像關鍵信息提取方法及系統在審
| 申請號: | 202010051006.7 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111242060A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 周釗;鄭瑩斌;葉浩 | 申請(專利權)人: | 上海兌觀信息科技技術有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06F16/903 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 韋志剛 |
| 地址: | 201203 上海市浦東新區中國(上海)自由貿易試*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 圖像 關鍵 信息 提取 方法 系統 | ||
本發明適用于文檔信息處理技術領域,提供了一種文檔圖像關鍵信息提取方法及系統,文檔圖像關鍵信息提取方法通過對模板圖像進行文字檢測和識別,標注關鍵信息的位置,輸入待提取關鍵信息的圖像,對其進行檢測識別,最后利用關鍵信息提取算法提取待測圖像的關鍵信息,文檔圖像關鍵信息提取系統包括圖像處理模塊和關鍵信息提取模塊,圖像處理模塊用于對模板圖像進行文字檢測和識別,所述圖像處理模塊用于輸入待提取關鍵信息的待測圖像,對其進行文字檢測和識別,關鍵信息提取模塊用于利用關鍵信息提取算法提取待測圖像的關鍵信息,本發明具有不依賴識別模型輸出的文檔文字識別結果、適用范圍廣、開發時間短的特點。
技術領域
本發明屬于文檔信息處理技術領域,尤其涉及一種文檔圖像關鍵信息提取方法及系統。
背景技術
文檔數字化,是指利用掃描儀技術、圖像文字識別技術、數據庫等技術將各種載體的文檔轉化為數字化的文檔細信息,方便文檔的存儲、管理與維護等。在這一過程中,除了將圖像中的文字通過文字識別技術轉換為數字化的文字信息以外,還需要保留通過圖像結構體現的信息,例如,在發票中,“發票號碼:”這幾個字符與后面代表發票號碼的一串字符往往并不連續,需要通過文檔關鍵信息提取技術獲取包含通過文檔結構體現的信息在內的文檔關鍵信息,以方便文檔的檢索與管理。
在文檔關鍵信息提取問題中,待提取的關鍵信息一般在某些標志性字段附近,現有技術之一利用檢索識別到的文字內容中的標志性字段定位到標志性字段的位置,再通過標志性字段與待提取的關鍵信息的位置關系定位到關鍵信息,從而進行關鍵信息提取。通過定位標志性字段再根據相對位置確定待提取的關鍵字段缺點之一是這種方法非常依賴識別結果,要求識別模型輸出的標志性字段結果與定義的標志性字段完全一致才能定位到標志性字段的位置,當識別模型輸出結果不太精確時可能使這種方法完全失效;另一個缺點是這種方法只適合版面固定的某類圖像,因為這種方法中標志性字段和待提取的關鍵字段相對位置是固定的,一旦兩者位置有偏移或者文檔版面有微小變化也會導致這種方法失效;此外,這種方法開發成本高,對于每一類版面不同的文檔都需要重新開發一套適用該類文檔的規則。
發明內容
本發明提供一種文檔圖像關鍵信息提取方法及系統,旨在解決現有技術的開發成本高的問題。
本發明是這樣實現的,一種文檔圖像關鍵信息提取方法及系統,一種文檔圖像關鍵信息提取方法,包括以下步驟:
S1、對模板圖像進行文字檢測和識別,標注關鍵信息的位置;
S2、輸入待提取關鍵信息的待測圖像,對其進行文字檢測和識別;
S3、利用關鍵信息提取算法提取待測圖像的關鍵信息。
優選的,所述利用關鍵信息提取算法提取待測圖像的關鍵信息,具體為:
利用最長公共子序列算法判斷模板圖像和待測圖像的字符串兩兩之間是否是匹配關系,所述模板圖像和所述待測圖像均為一張圖像;
求解兩張圖像的行兩兩之間字符串的最優匹配,以及達到最優匹配時的分數;
根據兩張圖像行間匹配的分數計算全局最優匹配;
確定待測圖像中與模板標注出的關鍵信息匹配的字符串,提取這些字符串作為最終關鍵信息提取的結果。
優選的,所述利用最長公共子序列算法判斷兩張圖像的字符串兩兩之間是否是匹配關系,具體為:先使用最長公共子序列算法求解兩個字符串的最長公共子序列長度,若該長度大于預設閾值,則判斷為這兩個字符串為匹配關系。
優選的,所述求解兩張圖像的行兩兩之間字符串的最優匹配,以及達到最優匹配時的分數,具體為:將字符串按檢測得到的位置排列,縱軸方向的坐標差值在預設范圍內的字符串為同一行,求解模板中的行和待測圖像的行的最優匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海兌觀信息科技技術有限公司,未經上海兌觀信息科技技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010051006.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





