[發明專利]一種面向辦公場景的光學文字識別方法在審
| 申請號: | 202010010967.3 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111222572A | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 周智 | 申請(專利權)人: | 紫光云技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/34 |
| 代理公司: | 天津濱海科緯知識產權代理有限公司 12211 | 代理人: | 耿樹志 |
| 地址: | 300459 天津市濱海新區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 辦公 場景 光學 文字 識別 方法 | ||
本發明提供了一種面向辦公場景的光學文字識別方法,包括數據樣本采集,包括數據處理以及原始樣本分割;文字檢測部分訓練,包括預訓練與再訓練;文字識別部分訓練,包括標簽生成與訓練;模型驗證,包括檢測部分驗證和識別部分驗證,并最終得到檢測和識別的分析報告;改進流程,包括數據質量改進和算法改進。本發明針對于不同尺度文字回歸率較低的缺陷和只能對于一類發票奏效、而對于多類發票的識別的使用缺陷,本文提出了一種面向辦公場景的光學文字識別工作流,能夠在兼顧辦公場景下的發票類型、檢測速度和識別精確度情況下得到較好的辦公場景文字識別結果。
技術領域
本發明屬于數據處理技術領域,尤其是涉及一種面向辦公場景的光學文字識別方法。
背景技術
隨著人工智能技術的迅速發展,文字識別應用領域已經從面向科研的簡單場景逐步轉向為與社會活動密相關的復雜應用場景。基于此,我們對于光學文字識別的設計和使用逐步從單一的功能性向云端逐漸轉移,但是現有的普通OCR技術在相同的發票類型中能夠完成檢測和識別,發票背景一旦出現高噪音或者較大的類型差異時,現存的OCR技術就不易從背景中分離出各類發票的邊界,這對于面向辦公場景的光學文字識別技術就不再適用;此外,將簡單的文字識別服務打包成為云端服務才可以提供更加廣泛的服務以便于更多用戶使用,基于上述觀點,本次發明要構建一種面向辦公場景的光學文字識別云服務、為公司員工的財務報銷自動化流程添助一臂之力。
目前使用的OCR技術主要應用在辦公場景之下和自然場景之中,對于前者以Yolo系列為代表的一次檢測技術占據了現有自然場景檢測的主流,但是該類技術存在著對于不同尺度文字回歸率較低的缺陷;在普遍的辦公場景文字檢測中,現有的技術往往只能對于一類發票奏效、而對于多類發票的識別使用基于聚類方法時尚不能高精確的區分不同類型的發票。
發明內容
有鑒于此,本發明旨在提出一種面向辦公場景的光學文字識別方法,以解決上述背景技術中提到的問題。
為達到上述目的,本發明的技術方案是這樣實現的:
一種面向辦公場景的光學文字識別方法,包括如下步驟:
S1:數據樣本采集,包括數據處理以及原始樣本分割;
S2:文字檢測部分訓練,包括預訓練與再訓練;
S3:文字識別部分訓練,包括標簽生成與訓練;
S4:模型驗證,包括檢測部分驗證和識別部分驗證,并最終得到檢測和識別的分析報告;
S5:改進流程,包括數據質量改進和算法改進。
進一步的,所述步驟S1中,數據處理過程包括數據獲取、數據清洗和數據集制作,其中,
數據獲取:向相關部門申請發票數據,在得到采樣許可后進行實地數據采樣,對采集到的數據簡單歸一化整理、并按照采集樣本質量進行打分,完成粗粒度的數據分析;
數據清洗:對粗粒度清洗后的數據進行細粒度的清洗,對于不滿足最低尺度、分辨率和所占比例的圖片予以濾除;
數據集制作:將數據制作成類VOC數據集格式,這個數據集包含以下四項:Annotation裝載著標定的數據、JPEG包含著各個jpg格式的圖像、score包含著對于各個評分檔的數據樣本、layout包含了用于訓練、訓練-驗證和驗證的樣本編號。
進一步的,所述步驟S1中,原始樣本分割過程使用訓練得到的模型區分出粗粒度的發票種類。
進一步的,所述步驟S2中,
預訓練:在EAST預訓練部分要更改數據集路徑、在多核V100上根據資源調節訓練參數、將前置訓練予以清理,并在tmux下啟動訓練流程、然后訓練得到檢測模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紫光云技術有限公司,未經紫光云技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010010967.3/2.html,轉載請聲明來源鉆瓜專利網。





