[發(fā)明專利]一種數字檔案智能分類的裝置及方法在審
| 申請?zhí)枺?/td> | 202010736156.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111860524A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設計)人: | 陳恒生;鄭瑩斌;葉浩 | 申請(專利權)人: | 上海兌觀信息科技技術有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06F40/258;G06F40/295;G06F16/35 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 韋志剛 |
| 地址: | 201207 上海市浦東新區(qū)中國(上海)自由貿易試*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數字 檔案 智能 分類 裝置 方法 | ||
1.一種數字檔案智能分類的裝置,其特征在于:包括:
數據轉換模塊,其用于將目標數字檔案轉化成圖片;
OCR識別模塊,其用于識別所述圖片中的文本內容、位置和文字大小;OCR識別出的結果為文字塊,一個所述文字塊包含一個或多個文字,并且具備寬度和高度屬性,以及文字塊中心點橫坐標與縱坐標屬性;
OCR后處理模塊,其用于優(yōu)化所述文字塊中的文字內容、對優(yōu)化后的文字內容進行排序、合并每一行中識別出的相鄰文字塊;合并的原則為:若相鄰的兩個文字塊的文字大小一致,那么它們可以合并,否則不可以合并;
標題提取模塊,其用于根據合并后的文字塊計算提取標題;
全文提取模塊,其用于根據合并后的文字塊獲得目標數字檔案的全文內容;
特征提取模塊,其用于提取出目標數字檔案的特征集;輸入參數為目標數字檔案的存儲文件名、標題和全文內容;
分類模塊,其用于將提取出的特征集轉換成特征向量作為輸入,輸出分類結果。
2.如權利要求1所述的一種數字檔案智能分類的裝置,其特征在于:所述優(yōu)化所述文字塊中的文字內容,包括修復常見識別錯誤,刪除文字塊中的空格。
3.如權利要求2所述的一種數字檔案智能分類的裝置,其特征在于:所述對優(yōu)化后的文字內容進行排序,具體為:
對OCR識別的結果按照每個識別出的文字塊中心點縱坐標排序;
合并同一行結果,把同樣縱坐標歸為同一行;
對獲得的每一行OCR結果,按照識別出的文字的結果的橫坐標進行排序。
獲得排完序的OCR結果,由從上到下的行組成,每一行由從左到右的文字塊組成。
4.如權利要求3所述的一種數字檔案智能分類的裝置,其特征在于:所述根據合并后的文字塊計算提取標題,具體為:
按照行的順序從上往下遍歷OCR結果;
找到一行中最大的文字塊;
如果下一行中最大的文字塊比上一行最大的文字塊小,那么終止遍歷;
遍歷過程中發(fā)現(xiàn)的最大的文字塊內的文字即是標題。
5.如權利要求4所述的一種數字檔案智能分類的裝置,其特征在于:所述提取出目標數字檔案的特征集,具體為:
依次執(zhí)行規(guī)則配置中的每一條規(guī)則,記錄執(zhí)行結果;
其中,可執(zhí)行的規(guī)則至少包含以下類型:
計算指定的命名實體是否出現(xiàn)在文件名、標題和全文內容中,命名實體識別可以利用現(xiàn)有的成熟技術;
計算指定的關鍵詞是否出現(xiàn)在文件名、標題和全文內容中且該關鍵詞不在命名實體中;
用邏輯與、或、非任意組合以上規(guī)則。
6.如權利要求1至5中任意一項所述的一種數字檔案智能分類的裝置的分類方法,其特征在于:包括以下步驟:
S1、將目標數字檔案轉化成圖片;
S2、識別所述圖片中的文本內容、位置和文字大小;OCR識別出的結果為文字塊,一個所述文字塊包含一個或多個文字,并且具備寬度和高度屬性,以及文字塊中心點橫坐標與縱坐標屬性;
S3、優(yōu)化所述文字塊中的文字內容;
S4、對優(yōu)化后的文字內容進行排序;
S5、合并每一行中識別出的相鄰文字塊;合并的原則為:若相鄰的兩個文字塊的文字大小一致,那么它們可以合并,否則不可以合并;
S6、根據合并后的文字塊計算提取標題;
S7、根據合并后的文字塊獲得目標數字檔案的全文內容;
S8、提取出目標數字檔案的特征集;輸入參數為目標數字檔案的存儲文件名、標題和全文內容;
S9、將提取出的特征集轉換成特征向量作為輸入,輸出分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海兌觀信息科技技術有限公司,未經上海兌觀信息科技技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010736156.1/1.html,轉載請聲明來源鉆瓜專利網。





