[發明專利]一種檔案自動編研方法有效
| 申請號: | 201410714594.2 | 申請日: | 2014-11-28 |
| 公開(公告)號: | CN104361111B | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 蔣靜;王卓平;門霞;趙毅 | 申請(專利權)人: | 青島大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 青島高曉專利事務所(普通合伙)37104 | 代理人: | 張世功 |
| 地址: | 266071 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檔案 自動 方法 | ||
技術領域:
本發明屬于檔案分類與檢索技術領域,涉及一種基于B/S架構檔案管理信息系統的檔案自動編研方法,為檔案匯編和檔案文摘匯編提供由計算機軟件完成的檔案自動編研技術。
背景技術:
基于B/S架構的檔案管理信息系統是傳統檔案館功能在信息化社會的延伸,既具有傳統檔案館的基本屬性和功能,又能適應信息時代的發展需要,在實現常規檔案數字化管理的同時,通過互聯網和建立數字檔案存儲數據庫實現對各部門及各類檔案信息的收集、存儲、管理和利用,為檔案資源的利用提供信息化服務。面向檔案利用的檔案編研工作是檔案館/室根據檔案利用的實際需求,以檔案館/室庫藏檔案為基礎,以匯編檔案參考資料為成果形式的一項專門工作。檔案編研工作的實質是對檔案文件的內容進行研究和加工整理,并編研成冊,使之一目了然,以提高執政部門和單位綜合管理水平和工作效率,增強檔案資源對社會的服務價值。目前,檔案編研工作主要是以人工編研為主,其速度慢,效率低,編研質量差。
傳統的人工檔案編研方法按照對檔案的加工層次分為2種,第一種檔案編研的加工方法是在原始檔案的基礎上摘錄、縮編和剪輯,形成概要性材料;其加工檔案編研的成果形式有:發文匯集、專題匯編、專題檔案文摘匯編,其中包括某一領域的專家學者及學術論文文摘匯編、科技成果文摘匯編等等;第二種檔案編研的加工方法是需要在對原始檔案資料的有關內容進行分析、研究和歸納的基礎上,編寫出新的材料;其加工檔案編研成果形式有:年鑒、組織沿革、史志和綜合性技術經濟調研報告等。在第二種檔案編研的加工成果形式中由于包含了人們對事物的新認識、新觀點、新的結論和新的建議等新內容,從信息量的角度來看這些都是新增加的信息,所以這種檔案編研加工一般是由相關領域的專家或學者完成。而第一種加工檔案編研成果包含的信息是檔案中已有的信息,不會增加信息量,不產生新的內容,力求做到“全、精、準”,不能有疏漏,編研的內容要全面、細致,寧多勿漏,并且隨著時間的延續,需要編研的原始檔案材料積累將會達到海量數據量,對于海量數據由人工進行編研稍有大意就會造成信息遺漏或出錯,不能保證檔案編研成果的質量和價值,其勞動強度大,工作效率低,編研準確率差,制約了檔案資源在海量數據規模和更高技術水平上的充分開發和利用,人力成本很高。
發明內容:
本發明的目的在于克服現有技術存在的缺點,尋求設計提供一種基于檔案管理信息系統的檔案自動編研方法,采用計算機自動分類和檢索技術自動生成檔案編研成果形式,提高檔案編研效率和準確率,減少人工編研時的信息疏漏。
為了實現上述目的,本發明在基于B/S架構的檔案管理信息系統中由檔案錄入與管理模塊和檔案編研模塊聯合實現檔案自動編研,其具體步驟為:
(1)先進行檔案信息錄入,按照系統顯示的案卷目錄、卷內目錄和專家登記卡界面給出的統一格式分別錄入檔案標題、檔案所屬分類、檔號、年度和專家情況各類基本信息;
(2)再由檔案錄入與管理模塊利用本發明提出的自動層次分類算法自動對步驟(1)錄入的檔案信息進行分類和匯總,并分別存入相對應的檔案目錄、卷內目錄與專家基本信息登記目錄數據庫和專家數據庫中;
(3)再由檔案編研模塊根據用戶輸入的編研條件和存入的信息對相應檔案目錄、卷內目錄與專家基本信息登記目錄數據庫和專家數據庫進行檢索、查詢并匯總生成檔案編研結果;
(4)將檔案編研結果顯示在屏幕上,或將檔案編研結果以Word文檔或Excel報表的形式導出后打印輸出形成紙質文檔保存,實現檔案的自動編研。
本發明提出的自動層次分類算法是對現有常規的樸素貝葉斯算法的改進,樸素貝葉斯算法是指分類時考慮文本的所有特征對文本進行分類,分類時將預測樣本根據預測結果劃分到特定文檔類別概率最高的類別庫中。
本發明涉及的樸素貝葉斯算法的具體分類模型如下:給定一個未知類別的檔案文本X,設有m個類別,記為C1,C2,……,Cm,根據樸素貝葉斯分類定律,在條件X下具有最高后驗概率的類別P(Ci|X)的計算公式如下:
在P(Ci|X)計算公式中,P(X)是常數,因此只需要將分子P(X|Ci)P(Ci)最大化即可;P(Ci)是訓練集中的類別分布概率,計算公式為:式中分子為類別|Ci|包含的文本數加1,分母為m個類別與|D|為訓練集中所包含的文本總數之和;為了簡化P(X|Ci)的計算過程,假定文本的多個屬性是相互無關的,因此,計算P(X|Ci)就是推算特征屬性在類別Ci上出現的概率,使用拉普拉斯估計的2種計算模型來推算P(X|Ci)的值:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島大學,未經青島大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410714594.2/2.html,轉載請聲明來源鉆瓜專利網。





