[發明專利]一種用于法律文本信息挖掘的集成學習方法及系統在審
| 申請號: | 201811511621.0 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109299753A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 段強;李銳;于治樓 | 申請(專利權)人: | 濟南浪潮高新科技投資發展有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/332;G06F16/335 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 馮春連 |
| 地址: | 250100 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 法律文本 集成學習 信息挖掘 預處理 工程模型 預測結果 準確度 線性SVM 分類器 構建 預測 集成學習系統 發現信息 文本向量 法條 關聯 輸出 學習 | ||
1.一種用于法律文本信息挖掘的集成學習方法,其特征在于,首先,收集專業法律工作人員處理過的法律文本作為數據源,對數據源進行預處理,其次,針對預處理結果訓練得出不同的特征工程模型,線性SVM分類器學習不同特征工程模型得出的文本向量,隨后,線性SVM分類器根據學習結果對預處理后的數據源進行預測,通過Stacking方法集成預測結果,將預測結果用于集成學習模型的訓練,訓練完成的集成學習模型針對待處理法律文本輸出更加全面和準確度更高的預測結果。
2.根據權利要求1所述的一種用于法律文本信息挖掘的集成學習方法,其特征在于,對數據源進行預處理的操作包括:采用jieba或thulac工具構建詞庫,對數據源的法律文本進行分詞和去除停用詞處理。
3.根據權利要求2所述的一種用于法律文本信息挖掘的集成學習方法,其特征在于,利用現有開源停用詞詞庫,或者,請專業的法律工作人員針對數據源建立分詞詞庫和停用詞詞庫。
4.根據權利要求1所述的一種用于法律文本信息挖掘的集成學習方法,其特征在于,將數據源的法律文本均分成三份,使用10-fold cross validation,然后對三份法律文本分別使用TFIDF、Word2Vec、CountVectorizer訓練出相應的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。
5.根據權利要求4所述的一種用于法律文本信息挖掘的集成學習方法,其特征在于,所述集成學習模型選用Logistic regression,Stacking方法將線性SVM分類器的預測結果保存為三維向量矩陣,三維向量矩陣輸入Logistic regression進行Logistic regression的訓練,Logistic regression訓練完成后,再有待處理法律文本輸入Logistic regression時,Logistic regression即可直接輸出預測結果。
6.一種用于法律文本信息挖掘的集成學習系統,其特征在于,該系統包括:
收集模塊,用于收集專業法律工作人員處理過的法律文本作為數據源;
預處理模塊,用于對數據源中的法律文本進行預處理;
特征提取模塊,用于提取數據源中所有法律文本具有的不同特征;
訓練構建模塊,根據提取的不同特征訓練并構建不同的特征工程模型;
線性SVM分類器模塊,用于學習不同特征工程模型得出的文本向量,并根據學習結果對預處理后的數據源進行預測;
集成模塊,用于通過Stacking方法集成線性SVM分類器模塊的預測結果;
學習訓練模塊,用于學習預測結果并根據預測結果訓練集成學習模型;
集成學習模型,用于對待處理法律文本進行更加全面和準確度更高的預測。
7.根據權利要求6所述的一種用于法律文本信息挖掘的集成學習系統,其特征在于,所述預處理模塊采用jieba或thulac工具,具體用于數據源的法律文本進行分詞和去除停用詞處理。
8.根據權利要求6所述的一種用于法律文本信息挖掘的集成學習系統,其特征在于,還包括:
均分模塊,用于將數據源中的所有法律文本均分成N等份,其中N為不小于2的自然數,使用10-fold cross validation,對N等份法律文本分別使用N個不同的特征工程模型進行訓練。
9.根據權利要求8所述的一種用于法律文本信息挖掘的集成學習系統,其特征在于,所述N為3,均分模塊使用10-fold cross validation,然后對三份法律文本分別使用TFIDF、Word2Vec、CountVectorizer訓練出相應的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。
10.根據權利要求9所述的一種用于法律文本信息挖掘的集成學習系統,其特征在于,所述集成學習模型選用Logistic regression,集成模塊通過Stacking方法將線性SVM分類器模塊的預測結果保存為三維向量矩陣,三維向量矩陣輸入Logistic regression進行Logistic regression的訓練,Logistic regression訓練完成后,再有待處理法律文本輸入Logistic regression時,Logistic regression即可直接輸出預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南浪潮高新科技投資發展有限公司,未經濟南浪潮高新科技投資發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811511621.0/1.html,轉載請聲明來源鉆瓜專利網。





