[發明專利]一種合同分類自動識別方法及系統在審
| 申請號: | 201611265396.8 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106844554A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 許林 | 申請(專利權)人: | 全民互聯科技(天津)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06Q10/06;G06Q50/18 |
| 代理公司: | 天津濱海科緯知識產權代理有限公司12211 | 代理人: | 李成運 |
| 地址: | 300384 天津市濱海新區高新區華苑產業*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 合同 分類 自動識別 方法 系統 | ||
技術領域
本發明屬于信息化服務技術領域,尤其是涉及一種合同分類自動識別方法及系統。
背景技術
在市場經濟中,公司日常經營中合同扮演了越來越重要的角色,如何在日常經營中防范合同風險顯得尤為重要。合同風險包括了合同的管理風險和合同的法律風險,合同的管理風險是從合同的管理職能出發,而法律風險則是從合同文本的完備性和有效性出發,深入研究各種條款的設計技巧。隨著人工智能技術的飛速發展,在國外,采用計算機技術的人工智能合同法律風險自動識別的研究已經取得了初步成果;在國內,由于漢語的語義自動識別與英文有著巨大的差異,采用人工智能技術的合同法律風險識別研究還處于起步階段。
由于合同種類繁多,不同種類合同的法律風險也不同。因此,高識別率的合同分類自動識別技術成為采用計算機技術實現合同法律風險自動提示的關鍵難題。
現有技術的缺點:
1、目前國內對于合同法律風險自動識別的研究中,采用了由用戶自己選擇合同分類,然后再由計算機給出針對性的風險提示。由于合同種類繁多,合同各類別之間的界限模糊,一般非法律專業人員很難準確界定自己的合同的確切分類。因此,因用戶選擇類別錯誤,造成合同法律風險提示非常不準確,難以達到實際應用的要求。
2、由于漢語的語言結構與英文不同,目前也無法直接借鑒國外的成功經驗。
發明內容
有鑒于此,本發明旨在提出一種合同分類自動識別方法,解決了現有技術中存在的采用計算機自動識別合同分類時,識別率不高的問題。
為達到上述目的,本發明的技術方案是這樣實現的:
一種合同分類自動識別方法,包括如下步驟:
(1)采用有人工干預的深度學習算法,排除樣本中不能反映合同本質特性關鍵詞;
(2)通過大量樣本學習,對關鍵詞的權重進行設置;
(3)找出不同合同分類的差異,判斷合同類別。
進一步的,所述步驟(1)具體包括如下步驟:
(1)通過互聯網搜索到各類合同樣本,目前樣本數量為1000份;
(2)采用基于字典的最大逆向分詞算法,找出每類合同出現頻次最高的關鍵詞,按照中文的語言規則,篩選3-6個漢字的詞語,去除形容詞性的關鍵詞,每類留存30個以內的關鍵詞。
進一步的,所述步驟(2)具體包括如下步驟:
(1)對不同關鍵詞設置不同的權重,對于能夠明顯確定合同類別的關鍵詞給予較高權重;對于不能明顯確定合同分類的關鍵詞給予較低權重;
(2)按照上述方式給予關鍵詞設定權重從1-50,每次增量10,依次判別1000份樣本合同的分類是否正確,計算出相應的識別率,取其中識別率最高的作為最優權重。
進一步的,所述步驟(3)具體包括對具有特征的關鍵詞賦予的權重比較高,用來區分比較接近的合同種類。
采用對不同種類合同的特征關鍵詞賦予不同權重,并結合與或非邏輯運算,達到高識別率。具體實現方式是編制自動識別程序,對權重值進行智能優化,找出最優權重,而對關鍵詞權重的范圍是依據專業人員的專業知識擬定。
相對于現有技術,本發明所述的一種合同分類自動識別方法具有以下優勢:本方法采用計算機人工智能技術實現了對漢語合同的自動識別和分類,識別率非常高,達到了實際應用的要求,解決了目前靠用戶自行選擇合同分類引起法律風險提示不準確的問題。
本發明的另一目的在于提出一種合同分類自動識別系統,解決了現有技術中存在的采用計算機自動識別合同分類時,識別率不高的問題。
為達到上述目的,本發明的技術方案是這樣實現的:
一種合同分類自動識別系統,包括
用于采用有人工干預的深度學習算法,排除樣本中不能反映合同本質特性關鍵詞的提取模塊;
用于通過大量樣本學習,對關鍵詞的權重進行設置的設置模塊;
用于找出不同合同分類的差異,判斷合同類別的判別模塊。
進一步的,所述提取模塊包括
用于通過互聯網搜索到各類合同樣本,目前樣本數量為1000份的搜索模塊;
用于采用基于字典的最大逆向分詞算法,找出每類合同出現頻次最高的關鍵詞,按照中文的語言規則,篩選3-6個漢字的詞語,去除形容詞性的關鍵詞,每類留存30個以內的關鍵詞的篩選模塊。
進一步的,所述設置模塊包括
用于對不同關鍵詞設置不同的權重,對于能夠明顯確定合同類別的關鍵詞給予較高權重;對于不能明顯確定合同分類的關鍵詞給予較低權重的不同權重設置模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全民互聯科技(天津)有限公司,未經全民互聯科技(天津)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611265396.8/2.html,轉載請聲明來源鉆瓜專利網。





