[發明專利]一種法律文書案由分類器的自動構建方法有效
| 申請號: | 201710281403.1 | 申請日: | 2017-04-26 |
| 公開(公告)號: | CN107122451B | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 金佩;張德政;賈麒;謝永紅;齊宇馨;栗輝 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/216;G06F40/30 |
| 代理公司: | 11237 北京市廣友專利事務所有限責任公司 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 法律文書 案由 分類 自動 構建 方法 | ||
本發明提供一種法律文書案由分類器的自動構建方法,分類效率高、準確率高。所述方法包括:獲取多類案由的法律文書,確定每類案由的測試語料;對每類測試語料去停用詞和分詞;根據分詞結果,確定每類案由的基本關鍵詞;根據分詞結果,對每類測試語料進行詞向量訓練,擴充關鍵詞,根據擴充的關鍵詞和確定的基本關鍵詞,確定每類案由的擴充關鍵詞列表;輸入待分類法律文書,對輸入的所述待分類法律文書去停用詞和分詞、并進行詞向量訓練,根據所述待分類法律文書的詞向量訓練結果,計算所述待分類法律文書與每類擴充關鍵詞列表的語義相似度總和,取語義相似度總和最大值對應的案由為所述待分類法律文書對應的案由。本發明涉及知識工程技術領域。
技術領域
本發明涉及知識工程技術領域,特別是指一種法律文書案由分類器的自動構建方法。
背景技術
近幾年,我國最高人民法院為貫徹落實審判公開原則,設立了中國裁判文書網,規定除涉及國家秘密、個人隱私的、未成年人違法犯罪的、以調解方式結案的和其他不宜在互聯網公布的裁判文書外,其余一律在網絡上公布。這一政策為面向法律文書的自然語言處理技術帶來了大量的研究資源。
在法律信息公開化的大時代背景下,在已有的海量法律文書中,讓計算機獲得學習能力和較準確的領域知識,有效利用這些海量的文本資源克服文本自然語言理解過程中的復雜性問題,實現文本分析,具有重要的理論價值和實際意義。
現有技術中,法律文書的案由提取,多為人工標記,效率低下;或是利用正則表達式進行匹配,準確率低。
發明內容
本發明要解決的技術問題是提供一種法律文書案由分類器的自動構建方法,以解決現有技術所存在的案由提取效率低下、準確率低的問題。
為解決上述技術問題,本發明實施例提供一種法律文書案由分類器的自動構建方法,包括:
獲取多類案由的法律文書,構建案由基礎語料庫,根據構建的所述案由基礎語料庫,確定每類案由的測試語料;
對每類測試語料去停用詞和分詞;
根據分詞結果,確定每類案由的基本關鍵詞;
根據分詞結果,對每類測試語料進行詞向量訓練,擴充關鍵詞,根據擴充的關鍵詞和確定的基本關鍵詞,確定每類案由的擴充關鍵詞列表;
輸入待分類法律文書,對輸入的所述待分類法律文書去停用詞和分詞、并進行詞向量訓練,根據所述待分類法律文書的詞向量訓練結果,計算所述待分類法律文書與每類擴充關鍵詞列表的語義相似度總和,取語義相似度總和最大值對應的案由為所述待分類法律文書對應的案由。
進一步地,所述法律文書包括:判決書和裁定書;
所述獲取多類案由的法律文書,構建案由基礎語料庫,根據構建的所述案由基礎語料庫,確定每類案由的測試語料包括:
獲取多類案由的法律文書,根據獲取的所述多類案由的法律文書,構建案由基礎語料庫;
針對第i類案由,從構建的所述案由基礎語料庫中選取相應的判決書和裁定書進行合并,得到第i類案由的測試語料。
進一步地,在對每類測試語料去停用詞和分詞之前,所述方法還包括:
對每類測試語料進行結構劃分,去掉文書頭部、文書尾部以及當事人信息。
進一步地,所述對每類測試語料去停用詞和分詞包括:
根據預先自定義的去停用詞詞典和分詞詞典,利用Ansj分詞器對去掉文書頭部、文書尾部以及當事人信息的每類測試語料去停用詞和分詞;
對分詞后得到的結果進行數據過濾。
進一步地,所述對分詞后得到的結果進行數據過濾包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710281403.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網絡圖片輿情監測方法
- 下一篇:時序化的學生認知診斷方法





