[發明專利]一種合同分類自動識別方法及系統在審
| 申請號: | 201611265396.8 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106844554A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 許林 | 申請(專利權)人: | 全民互聯科技(天津)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06Q10/06;G06Q50/18 |
| 代理公司: | 天津濱海科緯知識產權代理有限公司12211 | 代理人: | 李成運 |
| 地址: | 300384 天津市濱海新區高新區華苑產業*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 合同 分類 自動識別 方法 系統 | ||
1.一種合同分類自動識別方法,其特征在于:包括如下步驟:
(1)采用有人工干預的深度學習算法,排除樣本中不能反映合同本質特性關鍵詞;
(2)通過大量樣本學習,對關鍵詞的權重進行設置;
(3)找出不同合同分類的差異,判斷合同類別。
2.根據權利要求1所述的一種合同分類自動識別方法,其特征在于:所述步驟(1)具體包括如下步驟:
(101)通過互聯網搜索到各類合同樣本,目前樣本數量為1000份;
(102)采用基于字典的最大逆向分詞算法,找出每類合同出現頻次最高的關鍵詞,按照中文的語言規則,篩選3-6個漢字的詞語,去除形容詞性的關鍵詞,每類留存30個以內的關鍵詞。
3.根據權利要求1所述的一種合同分類自動識別方法,其特征在于:所述步驟(2)具體包括如下步驟:
(201)對不同關鍵詞設置不同的權重,對于能夠明顯確定合同類別的關鍵詞給予較高權重;對于不能明顯確定合同分類的關鍵詞給予較低權重;
(202)按照上述方式給予關鍵詞設定權重從1-50,每次增量10,依次判別1000份樣本合同的分類是否正確,計算出相應的識別率,取其中識別率最高的作為最優權重。
4.根據權利要求1所述的一種合同分類自動識別方法,其特征在于:所述步驟(3)具體包括對具有特征的關鍵詞賦予的權重比較高,用來區分比較接近的合同種類。
5.一種合同分類自動識別系統,其特征在于:包括
用于采用有人工干預的深度學習算法,排除樣本中不能反映合同本質特性關鍵詞的提取模塊;
用于通過大量樣本學習,對關鍵詞的權重進行設置的設置模塊;
用于找出不同合同分類的差異,判斷合同類別的判別模塊。
6.根據權利要求5所述的一種合同分類自動識別系統,其特征在于:所述提取模塊包括
用于通過互聯網搜索到各類合同樣本,目前樣本數量為1000份的搜索模塊;
用于采用基于字典的最大逆向分詞算法,找出每類合同出現頻次最高的關鍵詞,按照中文的語言規則,篩選3-6個漢字的詞語,去除形容詞性的關鍵詞,每類留存30個以內的關鍵詞的篩選模塊。
7.根據權利要求5所述的一種合同分類自動識別系統,其特征在于:所述設置模塊包括
用于對不同關鍵詞設置不同的權重,對于能夠明顯確定合同類別的關鍵詞給予較高權重;對于不能明顯確定合同分類的關鍵詞給予較低權重的不同權重設置模塊;
用于按照上述方式給予關鍵詞設定權重從1-50,每次增量10,依次判別1000份樣本合同的分類是否正確,計算出相應的識別率,取其中識別率最高的作為最優權重的最優權重設置模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全民互聯科技(天津)有限公司,未經全民互聯科技(天津)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611265396.8/1.html,轉載請聲明來源鉆瓜專利網。





