[發明專利]一種數字檔案智能分類的裝置及方法在審

申請號：	202010736156.1	申請日：	2020-07-28
公開（公告）號：	CN111860524A	公開（公告）日：	2020-10-30
發明（設計）人：	陳恒生;鄭瑩斌;葉浩	申請（專利權）人：	上海兌觀信息科技技術有限公司
主分類號：	G06K9/34	分類號：	G06K9/34;G06F40/258;G06F40/295;G06F16/35
代理公司：	上海互順專利代理事務所(普通合伙) 31332	代理人：	韋志剛
地址：	201207 上海市浦東新區中國(上海)自由貿易試***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數字檔案智能分類裝置方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明適用于數字檔案分類處理技術領域，提供了一種數字檔案智能分類的裝置及方法，通過設置數據轉換模塊、OCR識別模塊、OCR后處理模塊、標題提取模塊、全文提取模塊和特征提取模塊，本發明引入了OCR技術，利用OCR技術統一獲得了圖像或非圖像數字檔案的文本內容，提供了一種標題提取方法，通過標題提取模塊從OCR的結果中提取出文檔標題，作為分類的一個重要輸入，利用一個高度靈活的規則引擎作為特征提取模塊，可以通過配置規則，提取出目標檔案的各類特征以及其組合特征，從而可以達到高精度的分類結果。

技術領域

本發明屬于數字檔案分類處理技術領域，尤其涉及一種數字檔案智能分類的裝置及方法。

背景技術

隨著技術的發展，越來越多的檔案開始使用數字化存儲，包括天然的電子文檔，以及通過掃描或照相技術把傳統紙質檔案轉化成數字檔案存儲。在管理數字檔案時，往往都需要按照一定的原則或規范對數字檔案進行分類后存儲。在檔案數量巨大時，人力進行分類的成本很高，而機器自動分類的精度不足以符合實際要求，一般可以通過機器對數字檔案進行預分類，再由人來做分類確認。

OCR是一種對圖片中的文本進行識別的技術，可以用來獲得文本內容、字體大小、位置信息。隨著深度學習的發展，目前的OCR技術在中英文上都已經能達到較高的準確率。

目前，數字檔案的分類技術大體可以分為兩種：使用自然語言技術對純文字的電子文檔進行分類，又或者使用圖像技術直接提取數字檔案的圖像特征，用圖像分類的技術對其進行分類。

基于圖像技術的分類，通過包括深度神經網絡在內的圖像技術提取圖像的特征，后續的分類流程和基于自然語言處理技術的分類流程相似，通過分類模型或者相似度模型對圖像進行訓練和分類。

發明內容

本發明提供一種數字檔案智能分類的裝置及方法，旨在支持對檔案照片或掃描件的分類，可以達到較高的精度。

本發明是這樣實現的，提供一種數字檔案智能分類的裝置，包括：

數據轉換模塊，其用于將目標數字檔案轉化成圖片；

OCR識別模塊，其用于識別所述圖片中的文本內容、位置和文字大小；OCR識別出的結果為文字塊，一個所述文字塊包含一個或多個文字，并且具備寬度和高度屬性，以及文字塊中心點橫坐標與縱坐標屬性；

OCR后處理模塊，其用于優化所述文字塊中的文字內容、對優化后的文字內容進行排序、合并每一行中識別出的相鄰文字塊；合并的原則為：若相鄰的兩個文字塊的文字大小一致，那么它們可以合并，否則不可以合并；

標題提取模塊，其用于根據合并后的文字塊計算提取標題；

全文提取模塊，其用于根據合并后的文字塊獲得目標數字檔案的全文內容；

特征提取模塊，其用于提取出目標數字檔案的特征集；輸入參數為目標數字檔案的存儲文件名、標題和全文內容；