[發明專利]一種基于語義分析的檔案自動開放鑒定方法及系統有效
| 申請號: | 202110542853.8 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN112989018B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 王楠;張宇;顧凌峰;常祖賢;銀思琪;劉杰;宋永生 | 申請(專利權)人: | 江蘇聯著實業股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/335;G06F16/38;G06F40/30;G06F40/151;G06K9/62 |
| 代理公司: | 無錫蘇元專利代理事務所(普通合伙) 32471 | 代理人: | 王清偉 |
| 地址: | 210006 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分析 檔案 自動 開放 鑒定 方法 系統 | ||
本發明公開了一種基于語義分析的檔案自動開放鑒定方法及系統,其中,所述方法包括:獲得批量集待鑒定檔案信息;將批量集待鑒定檔案信息轉換為批量集純文本檔案信息;將批量集純文本檔案信息輸入格式語義庫,獲得第一訓練結果和第二訓練結果;將第二批次純文本檔案信息輸入關鍵詞庫,獲得第三訓練結果和第四訓練結果;將第四批次純文本檔案信息輸入語義知識庫,獲得第五訓練結果和第六訓練結果;將第六批次純文本檔案信息發送至人工審核端進行內容語義審核,生成第一審核結果;獲得可開放檔案信息。解決了現有技術中的基于單一的光學字符識別技術對檔案進行開放鑒定,使得鑒定結果存在誤判率高、準確率低的缺陷的技術問題。
技術領域
本發明涉及檔案開放鑒定技術領域,尤其涉及一種基于語義分析的檔案自動開放鑒定方法及系統。
背景技術
檔案工作的根本目的是整合各種檔案信息資源以便于社會大眾的利用,檔案開放是社會大眾獲取和利用檔案信息最基本也是最重要的途徑。隨著科技的日新月異,電子信息技術也給檔案工作帶來了巨大的變革,新技術的引進和運用不會改變檔案工作的根本目的,而是為了更加高效、更加便捷地為社會大眾服務。
但本申請發明人在實現本申請實施例中發明技術方案的過程中,發現上述技術至少存在如下技術問題:
現有技術中存在基于單一的光學字符識別技術對檔案進行開放鑒定,使得鑒定結果存在誤判率高、準確率低的缺陷的技術問題。
發明內容
本申請實施例通過提供一種基于語義分析的檔案自動開放鑒定方法及系統,解決了現有技術中的基于單一的光學字符識別技術對檔案進行開放鑒定,使得鑒定結果存在誤判率高、準確率低的缺陷的技術問題,通過基于字符識別系統,將待鑒定檔案轉換為純文本檔案,進而基于格式語義庫進行第一輪的格式檢索,基于關鍵詞庫進行第二輪的關鍵詞檢索,基于語義知識庫進行第三輪的預設語義檢索,最終將可開放檔案發送至人工審核端進行最后一道防線的人工審核,確保檔案開放鑒定的準確性,達到了在不增加鑒定成本的基礎上,進一步提高檔案開放鑒定的準確率和覆蓋率的技術效果。
本申請實施例提供一種基于語義分析的檔案自動開放鑒定方法,其中,所述方法應用于檔案自動開放鑒定系統,且所述系統與字符識別系統、語義識別系統通信連接,所述方法還包括:獲得批量集待鑒定檔案信息;基于所述字符識別系統,將所述批量集待鑒定檔案信息轉換為批量集純文本檔案信息;將所述批量集純文本檔案信息輸入格式語義庫進行訓練,用標識的特殊格式對輸入信息進行訓練,獲得第一訓練結果和第二訓練結果,其中,所述第一訓練結果為符合所述特殊格式的第一批次純文本檔案信息,所述第二訓練結果為不符合所述特殊格式的第二批次純文本檔案信息,且所述格式語義庫包含于所述語義識別系統;將所述第二批次純文本檔案信息輸入關鍵詞庫進行訓練,用標識的關鍵詞集合對輸入信息進行訓練,獲得第三訓練結果和第四訓練結果,其中,所述第三訓練結果為包含所述關鍵詞集合的第三批次純文本檔案信息,所述第四訓練結果為不包含所述關鍵詞集合的第四批次純文本檔案信息,且所述關鍵詞庫包含于所述語義識別系統;將所述第四批次純文本檔案信息輸入語義知識庫進行訓練,用標識的預設語義信息對輸入信息進行訓練,獲得第五訓練結果和第六訓練結果,其中,所述第五訓練結果為符合所述預設語義信息的第五批次純文本檔案信息,所述第六訓練結果為不符合所述預設語義信息的第六批次純文本檔案信息,且所述語義知識庫包含于所述語義識別系統;將所述第六批次純文本檔案信息發送至人工審核端進行內容語義審核,生成第一審核結果;根據所述第一審核結果,獲得所述批量集待鑒定檔案信息中的可開放檔案信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇聯著實業股份有限公司,未經江蘇聯著實業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110542853.8/2.html,轉載請聲明來源鉆瓜專利網。





