[發(fā)明專利]一種檔案智能鑒定方法、裝置及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211022159.4 | 申請日: | 2022-08-25 |
| 公開(公告)號: | CN115129959A | 公開(公告)日: | 2022-09-30 |
| 發(fā)明(設(shè)計)人: | 黃春鵬;季雪崗;王磊 | 申請(專利權(quán))人: | 北京美絡(luò)克思科技有限公司 |
| 主分類號: | G06F16/93 | 分類號: | G06F16/93;G06F16/35;G06N3/04;G06N3/08;G06V30/416;G06V30/412 |
| 代理公司: | 北京細軟智谷知識產(chǎn)權(quán)代理有限責(zé)任公司 11471 | 代理人: | 葛鐘 |
| 地址: | 100020 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 檔案 智能 鑒定 方法 裝置 系統(tǒng) | ||
1.一種檔案智能鑒定方法,其特征在于,包括以下步驟:
獲取檔案的電子數(shù)據(jù);
對所述檔案的電子數(shù)據(jù)進行數(shù)據(jù)處理,得到待鑒定檔案數(shù)據(jù);
將所述待鑒定檔案數(shù)據(jù)輸入到機器學(xué)習(xí)模型中,其中,所述機器學(xué)習(xí)模型為使用多組訓(xùn)練數(shù)據(jù)訓(xùn)練出來的,所述多組訓(xùn)練數(shù)據(jù)均包括檔案的密級標(biāo)簽和檔案的保管期限標(biāo)簽;
獲取所述機器學(xué)習(xí)模型的輸出信息結(jié)果,其中,所述輸出信息結(jié)果包括所述檔案的密級標(biāo)簽和檔案的保管期限標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述檔案的電子數(shù)據(jù)進行數(shù)據(jù)處理,得到待鑒定檔案數(shù)據(jù),包括:
對每一個文檔進行知識內(nèi)容提取,將提取的知識內(nèi)容作為待鑒定檔案數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對每一個文檔進行知識內(nèi)容提取,將提取的知識內(nèi)容作為待鑒定檔案數(shù)據(jù),包括:
對電子文檔的原始視覺信息進行統(tǒng)計,統(tǒng)計內(nèi)容包括文本內(nèi)容的字體類型、字體大小和線條信息;
根據(jù)所述統(tǒng)計內(nèi)容,確定正文字體類型、字體大小和表格區(qū)域,輸出統(tǒng)計結(jié)果;
根據(jù)所述統(tǒng)計結(jié)果,按照文章閱讀的視覺處理邏輯,確定文檔的標(biāo)題、段落和表格元素。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述機器學(xué)習(xí)模型為Text-CNN模型,用于檔案標(biāo)簽分類。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲取所述機器學(xué)習(xí)模型的輸出信息結(jié)果之后,還包括:
將所述輸出信息結(jié)果與預(yù)測結(jié)果進行比較,得到機器學(xué)習(xí)的測試成功率;
若所述測試成功率超過預(yù)設(shè)閾值,則將所述輸出信息結(jié)果輸入至檔案智能鑒定系統(tǒng)。
6.一種檔案智能鑒定裝置,其特征在于,包括:
獲取模塊,用于獲取檔案的電子數(shù)據(jù),所述檔案的電子數(shù)據(jù)為檔案專家已經(jīng)鑒定的檔案;
數(shù)據(jù)處理模塊,用于對所述檔案的電子數(shù)據(jù)進行數(shù)據(jù)處理,得到待鑒定檔案數(shù)據(jù);
機器學(xué)習(xí)模塊,用于將所述待鑒定檔案數(shù)據(jù)輸入到機器學(xué)習(xí)模型中,其中,所述機器學(xué)習(xí)模型為使用多組訓(xùn)練數(shù)據(jù)訓(xùn)練出來的,所述多組訓(xùn)練數(shù)據(jù)均包括檔案的密級標(biāo)簽和檔案的保管期限標(biāo)簽;
結(jié)果輸出模塊,獲取所述機器學(xué)習(xí)模型的輸出信息結(jié)果,其中,所述輸出信息結(jié)果包括所述檔案的密級標(biāo)簽和檔案的保管期限標(biāo)簽。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:
知識內(nèi)容提取模塊,用于對每一個文檔進行知識內(nèi)容提取,將提取的知識內(nèi)容作為待鑒定檔案數(shù)據(jù)。
8.一種檔案智能鑒定系統(tǒng),其特征在于,包括:
存儲器和處理器;
所述存儲器用于存儲所述處理器可執(zhí)行指令;
所述處理器被配置為用于執(zhí)行權(quán)利要求1-5任一項所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京美絡(luò)克思科技有限公司,未經(jīng)北京美絡(luò)克思科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211022159.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





