[發明專利]一種檔案智能鑒定方法、裝置及系統在審
| 申請號: | 202211022159.4 | 申請日: | 2022-08-25 |
| 公開(公告)號: | CN115129959A | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 黃春鵬;季雪崗;王磊 | 申請(專利權)人: | 北京美絡克思科技有限公司 |
| 主分類號: | G06F16/93 | 分類號: | G06F16/93;G06F16/35;G06N3/04;G06N3/08;G06V30/416;G06V30/412 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 葛鐘 |
| 地址: | 100020 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檔案 智能 鑒定 方法 裝置 系統 | ||
本發明屬于檔案鑒定技術領域,具體涉及一種檔案智能鑒定方法、裝置及系統,通過獲取檔案的電子數據,對所述檔案的電子數據進行數據處理,得到待鑒定檔案數據;將待鑒定檔案數據輸入到機器學習模型中,其中,機器學習模型為使用多組訓練數據訓練出來的,多組訓練數據均包括檔案的密級標簽和檔案的保管期限標簽;獲取機器學習模型的輸出信息結果,其中,輸出信息結果包括所述檔案的密級標簽和檔案的保管期限標簽。本申請技術方案可快速實現電子檔案的智能鑒定,解決了現有檔案管理系統中,依賴于人工進行檔案密級、保管期限和分類等標簽的鑒定,給檔案的管理和利用帶來極大便利。
技術領域
本發明屬于檔案鑒定領域,特別地,涉及一種檔案智能鑒定方法、裝置及系統。
背景技術
目前檔案系統的電子文檔的管理利用流程中,采用比較多的是文檔的文本信息提取和元數據提取技術。使用文本信息提取技術,進行文檔的搜索利用;提取文檔的元數據信息進行文檔的輔助著錄和管理。
而對于歸檔的文檔的檔案鑒定過程,目前都是依賴檔案專家和從業人員進行人工鑒定。而檔案從業人員的素質水平參差不齊,造成檔案鑒定的錯誤率比較高;而且檔案的鑒定工作是一份人力消耗比較大的工作,在人工智能技術發展的今天,是可以依賴人工智能技術進行檔案鑒定工作變革的比較好的時機。
由于檔案的鑒定,如對于檔案的密級、保管期限和分類等標簽的鑒定,目前都是依賴檔案專家的人工鑒定,檔案鑒定效率低。
基于此,如何提供一種檔案智能鑒定方法,有利于節省大量的人力,并減少對檔案專家的依賴是亟待解決的問題。
發明內容
有鑒于此,本發明的目的在于克服現有技術的不足,提供一種檔案智能鑒定方法、裝置及系統。
為實現以上目的,本申請采用如下技術方案:
第一方面,本申請提供一種檔案智能鑒定方法,包括以下步驟:
獲取檔案的電子數據;
對所述檔案的電子數據進行數據處理,得到待鑒定檔案數據;
將所述待鑒定檔案數據輸入到機器學習模型中,其中,所述機器學習模型為使用多組訓練數據訓練出來的,所述多組訓練數據均包括檔案的密級標簽和檔案的保管期限標簽;
獲取所述機器學習模型的輸出信息結果,其中,所述輸出信息結果包括所述檔案的密級標簽和檔案的保管期限標簽。
進一步地,對所述檔案的電子數據進行數據處理,得到待鑒定檔案數據,包括:
對每一個文檔進行知識內容提取,將提取的知識內容作為待鑒定檔案數據。
進一步地,所述對每一個文檔進行知識內容提取,將提取的知識內容作為待鑒定檔案數據,包括:
對電子文檔的原始視覺信息進行統計,統計內容包括文本內容的字體類型、字體大小和線條信息;
根據所述統計內容,確定正文字體類型、字體大小和表格區域,輸出統計結果;
根據所述統計結果,按照文章閱讀的視覺處理邏輯,確定文檔的標題、段落和表格元素。
進一步地,所述機器學習模型為Text-CNN模型,用于檔案標簽分類。
進一步地,在獲取所述機器學習模型的輸出信息結果之后,還包括:
將所述輸出信息結果與預測結果進行比較,得到機器學習的測試成功率;
若所述測試成功率超過預設閾值,則將所述輸出信息結果輸入至檔案智能鑒定系統。
第二方面,本申請提供一種檔案智能鑒定裝置,包括:
獲取模塊,用于獲取檔案的電子數據,所述檔案的電子數據為檔案專家已經鑒定的檔案;
數據處理模塊,用于對所述檔案的電子數據進行數據處理,得到待鑒定檔案數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京美絡克思科技有限公司,未經北京美絡克思科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211022159.4/2.html,轉載請聲明來源鉆瓜專利網。





