[發明專利]一種數字檔案智能分類的裝置及方法在審
| 申請號: | 202010736156.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111860524A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 陳恒生;鄭瑩斌;葉浩 | 申請(專利權)人: | 上海兌觀信息科技技術有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06F40/258;G06F40/295;G06F16/35 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 韋志剛 |
| 地址: | 201207 上海市浦東新區中國(上海)自由貿易試*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數字 檔案 智能 分類 裝置 方法 | ||
本發明適用于數字檔案分類處理技術領域,提供了一種數字檔案智能分類的裝置及方法,通過設置數據轉換模塊、OCR識別模塊、OCR后處理模塊、標題提取模塊、全文提取模塊和特征提取模塊,本發明引入了OCR技術,利用OCR技術統一獲得了圖像或非圖像數字檔案的文本內容,提供了一種標題提取方法,通過標題提取模塊從OCR的結果中提取出文檔標題,作為分類的一個重要輸入,利用一個高度靈活的規則引擎作為特征提取模塊,可以通過配置規則,提取出目標檔案的各類特征以及其組合特征,從而可以達到高精度的分類結果。
技術領域
本發明屬于數字檔案分類處理技術領域,尤其涉及一種數字檔案智能分類的裝置及方法。
背景技術
隨著技術的發展,越來越多的檔案開始使用數字化存儲,包括天然的電子文檔,以及通過掃描或照相技術把傳統紙質檔案轉化成數字檔案存儲。在管理數字檔案時,往往都需要按照一定的原則或規范對數字檔案進行分類后存儲。在檔案數量巨大時,人力進行分類的成本很高,而機器自動分類的精度不足以符合實際要求,一般可以通過機器對數字檔案進行預分類,再由人來做分類確認。
OCR是一種對圖片中的文本進行識別的技術,可以用來獲得文本內容、字體大小、位置信息。隨著深度學習的發展,目前的OCR技術在中英文上都已經能達到較高的準確率。
目前,數字檔案的分類技術大體可以分為兩種:使用自然語言技術對純文字的電子文檔進行分類,又或者使用圖像技術直接提取數字檔案的圖像特征,用圖像分類的技術對其進行分類。
基于圖像技術的分類,通過包括深度神經網絡在內的圖像技術提取圖像的特征,后續的分類流程和基于自然語言處理技術的分類流程相似,通過分類模型或者相似度模型對圖像進行訓練和分類。
發明內容
本發明提供一種數字檔案智能分類的裝置及方法,旨在支持對檔案照片或掃描件的分類,可以達到較高的精度。
本發明是這樣實現的,提供一種數字檔案智能分類的裝置,包括:
數據轉換模塊,其用于將目標數字檔案轉化成圖片;
OCR識別模塊,其用于識別所述圖片中的文本內容、位置和文字大小;OCR識別出的結果為文字塊,一個所述文字塊包含一個或多個文字,并且具備寬度和高度屬性,以及文字塊中心點橫坐標與縱坐標屬性;
OCR后處理模塊,其用于優化所述文字塊中的文字內容、對優化后的文字內容進行排序、合并每一行中識別出的相鄰文字塊;合并的原則為:若相鄰的兩個文字塊的文字大小一致,那么它們可以合并,否則不可以合并;
標題提取模塊,其用于根據合并后的文字塊計算提取標題;
全文提取模塊,其用于根據合并后的文字塊獲得目標數字檔案的全文內容;
特征提取模塊,其用于提取出目標數字檔案的特征集;輸入參數為目標數字檔案的存儲文件名、標題和全文內容;
分類模塊,其用于將提取出的特征集轉換成特征向量作為輸入,輸出分類結果。
優選的,所述優化所述文字塊中的文字內容,包括修復常見識別錯誤,刪除文字塊中的空格。
優選的,所述對優化后的文字內容進行排序,具體為:
對OCR識別的結果按照每個識別出的文字塊中心點縱坐標排序;
合并同一行結果,把同樣縱坐標歸為同一行;
對獲得的每一行OCR結果,按照識別出的文字的結果的橫坐標進行排序。
獲得排完序的OCR結果,由從上到下的行組成,每一行由從左到右的文字塊組成。
優選的,所述根據合并后的文字塊計算提取標題,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海兌觀信息科技技術有限公司,未經上海兌觀信息科技技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010736156.1/2.html,轉載請聲明來源鉆瓜專利網。





