[發明專利]一種對電子文書進行類別劃分的方法和裝置在審
| 申請號: | 201710157148.X | 申請日: | 2017-03-16 |
| 公開(公告)號: | CN108628869A | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 王宏剛 | 申請(專利權)人: | 富士施樂實業發展(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/20;G06K9/62 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 陳亮 |
| 地址: | 200131 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類類別 方法和裝置 分類信息 類別特征 頁面 | ||
1.一種對電子文書進行類別劃分的方法,其特征在于,所述方法包括:
a)獲取分類信息,所述分類信息指示多個分類類別;
b)提取所述電子文書的每個頁面對應的類別特征信息;以及
c)基于所述類別特征信息,將所述電子文書的每個頁面歸入所述多個分類類別中的相應分類類別。
2.如權利要求1所述的方法,其特征在于,所述步驟c)進一步包括:
c1)針對所述電子文書的每個頁面,計算各個分類類別對應的參考類別特征信息與該頁面對應的類別特征信息的匹配度;
c2)將所述電子文書的每個頁面歸入與高于閾值的匹配度相關聯的分類類別。
3.如權利要求2所述的方法,其特征在于,所述類別特征信息為電子文書的圖像信息,所述參考類別特征信息為參考類別圖像信息。
4.如權利要求2所述的方法,其特征在于,所述類別特征信息為電子文書的文字信息,所述參考類別特征信息為參考類別文字信息;
所述步驟b)進一步包括:
通過OCR算法提取所述電子文書對應的文字信息。
5.如權利要求1所述的方法,其特征在于,所述方法還包括:
對紙質文書進行掃描,以獲得對應的所述電子文書。
6.如權利要求5所述的方法,其特征在于,所述方法還包括:
按照對所述紙質文書的每個頁面的掃描順序為所述電子文書的每個頁面添加頁碼;
將各個頁面的頁碼與該頁面所屬的分類類別的關系制作成索引頁并存儲。
7.如權利要求1所述的方法,其特征在于,所述步驟a)進一步包括:
a1)掃描紙質的分類指示書,以獲取電子格式的所述分類指示書,其中所述分類指示書中記載有所述分類信息;
a2)對電子格式的所述分類指示書執行圖像識別,以獲取所述分類信息。
8.如權利要求1所述的方法,其特征在于,所述多個分類類別由多層級的母類別和子類別構成;
所述步驟c)進一步包括:
基于所述類別特征信息,將所述電子文書的每個頁面歸入相應的末端子類別中。
9.如權利要求8所述的方法,其特征在于,所述步驟a)進一步包括:
通過GUI畫面顯示所述多層級的母類別和子類別;
響應于用戶對所述GUI畫面內的所述母類別和/或子類別的勾選選擇,以獲取所述分類信息。
10.如權利要求8所述的方法,其特征在于,還包括:
基于所述分類信息生成分類指示書;以及
打印所述分類指示書。
11.如權利要求8所述的方法,其特征在于,所述方法還包括:
創建與所述多層級的母類別和子類別相對應的多層級的文件目錄;以及
將所述電子文書的各個頁面保存至相應的文件目錄中。
12.一種對電子文書進行類別劃分的裝置,其特征在于,所述裝置包括:
分類信息獲取模塊,用于獲取分類信息,所述分類信息指示多個分類類別;
類別特征信息提取模塊,用于提取所述電子文書的每個頁面對應的類別特征信息;以及
類別劃分模塊,基于所述類別特征信息,將所述電子文書的每個頁面歸入所述多個分類類別中的相應分類類別。
13.如權利要求12所述的裝置,其特征在于,所述類別劃分模塊進一步包括:
匹配度計算組件,用于針對所述電子文書的每個頁面,計算各個分類類別對應的參考類別特征信息與該頁面對應的類別特征信息的匹配度;
歸類組件,用于將所述電子文書的每個頁面歸入與高于閾值的匹配度相關聯的分類類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士施樂實業發展(中國)有限公司,未經富士施樂實業發展(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710157148.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本分類方法和裝置
- 下一篇:一種網頁預覽方法和裝置





