[發明專利]一種檔案自動編研方法有效
| 申請號: | 201410714594.2 | 申請日: | 2014-11-28 |
| 公開(公告)號: | CN104361111B | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 蔣靜;王卓平;門霞;趙毅 | 申請(專利權)人: | 青島大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 青島高曉專利事務所(普通合伙)37104 | 代理人: | 張世功 |
| 地址: | 266071 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檔案 自動 方法 | ||
1.一種檔案自動編研方法,其特征在于在基于B/S架構的檔案管理信息系統中由檔案錄入與管理模塊和檔案編研模塊聯合實現檔案自動編研,其具體步驟為:
(1)先進行檔案信息錄入,按照系統顯示的案卷目錄、卷內目錄和專家登記卡界面給出的統一格式分別錄入檔案標題、檔案所屬分類、檔號、年度和專家情況各類基本信息;
(2)再由檔案錄入與管理模塊利用本發明提出的自動層次分類算法自動對步驟(1)錄入的檔案信息進行自動分類和匯總,并分別存入相對應的檔案目錄、卷內目錄與專家基本信息登記目錄數據庫和專家數據庫中;
(3)再由檔案編研模塊根據用戶輸入的編研條件和存入的信息對相應檔案目錄、卷內目錄與專家基本信息登記目錄數據庫和專家數據庫進行檢索、查詢并匯總生成檔案編研結果;
(4)將檔案編研結果顯示在屏幕上,或將檔案編研結果以Word文檔或Excel報表的形式導出后打印輸出形成紙質文檔保存,實現檔案的自動編研;
所述的自動層次分類算法的實現流程如下:
(1)先在本地或在線錄入檔案信息,按照系統顯示的案卷目錄、卷內目錄和專家登記卡界面給出的統一格式分別錄入檔案標題、所屬分類、檔號、年度和專家的各類基本信息;
(2)系統自動提取檔案標題及檔案文本中的關鍵詞的文本數據特征參數集并保存在相應的數據庫中;
(3)對提取的文本數據特征參數集超過閾值時進行降維,過多的特征往往會導致維數災難,使分類的效率降低;
(4)根據提取的文本數據特征參數或關鍵詞執行樸素貝葉斯分類算法的粗分類;
(5)在步驟(4)粗分類結果上再分別針對每一子類進行特征抽取;
(6)再針對各個子類的文本數據特征參數執行樸素貝葉斯分類算法自動完成細分類;
(7)輸出分類結果并保存到相對應的數據庫中;
所述樸素貝葉斯算法是指分類時考慮文本的所有特征對文本進行分類,分類時將預測樣本根據預測結果劃分到特定文檔類別概率最高的類別庫中,其具體分類模型如下:給定一個未知類別的檔案文本X,設有m個類別,記為C1,C2,……,Cm,根據樸素貝葉斯分類定律,在條件X下具有最高后驗概率的類別P(Ci|X)的計算公式如下:
在P(Ci|X)計算公式中,P(X)是常數,因此只需要將分子P(X|Ci)P(Ci)最大化即可;P(Ci)是訓練集中的類別分布概率,計算公式為:式中分子為類別|Ci|包含的文本數加1,分母為m個類別與|D|為訓練集中所包含的文本總數之和;為了簡化P(X|Ci)的計算過程,假定文本的多個屬性是相互無關的,因此,計算P(X|Ci)就是推算特征屬性在類別Ci上出現的概率,使用拉普拉斯估計的2種計算模型來推算P(X|Ci)的值:
(1)多變量模型,統計特征屬性在文本中是否出現過,若出現記為1,否則記為0,計算公式為:
其中,|V|代表特征值總的數量,Bxt是wt在文本X中出現的標記,若wt出現則Bxt記為1,否則記為0,wt代表第t個特征,即向量的第t個分量,因此,式中的P(wt|Ci)計算公式如下:
(2)多項式模型(Multinomial Model)則統計特征屬性在文本中的出現次數,計算公式為:
其中,Nxt代表了特征t在文本X中出現的次數;P(wt|Ci)的計算公式如下:
在P(wt|Ci)的計算公式中,Njt為特征t在文本dj中曾出現的次數,|D|為訓練文本總數,|V|為特征總數,Njs是特征s在文本dj中的出現次數;該分類方法的實質是對文本對象中的所有特征值進行統計并映射到已存在的各個類別中的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島大學,未經青島大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410714594.2/1.html,轉載請聲明來源鉆瓜專利網。





