[發明專利]基于預訓練語言模型的法律文本類案檢索方法及系統有效
| 申請號: | 202210040271.4 | 申請日: | 2022-01-14 |
| 公開(公告)號: | CN114065760B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 李芳芳;蘇樸真;鄧曉衡;張健 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/194;G06F16/33;G06K9/62 |
| 代理公司: | 長沙軒榮專利代理有限公司 43235 | 代理人: | 叢詩洋 |
| 地址: | 410000 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 語言 模型 法律 文本 檢索 方法 系統 | ||
本發明提供了一種基于預訓練語言模型的法律文本類案檢索方法及系統,包括:根據原始法律主句文本數據和檢索池文本數據,將待檢索的法律文本類案信息整理成包括有主句和被檢索句的數據信息作為模型訓練的輸入數據;將所述輸入數據中的主句和被檢索句進行分詞處理和無效詞性篩選,基于人工構建的罪名表定位函數得到最終具有關鍵信息的數據;對所述具有關鍵信息的數據進行位置向量的計算,確定數據之間的位置關系;利用訓練好的預訓練語言模型,檢索出與查詢主句案例相關的法律文本類案。最大限度的保留了有效文本特征,又減少了文本的長度,同時也保證了文本語義信息不被破壞、強化了重點特征的占比。在數據上、本質上提高了模型的精度和性能。
技術領域
本發明涉及類案檢索技術領域,特別涉及一種基于預訓練語言模型的法律文本類案檢索方法及系統。
背景技術
類案檢索,是落實司法責任制要求、推行司法制約監督、促進法律適用統一的一項重要制度。相似案件,通常指要件事實、案情事實相同或相似的案件或者對于案件中事實情節、犯罪主體、犯罪手段、犯罪目的、犯罪結果都相似的案件。類案檢索是為了利用已經解決了的案例,當遇到相似的案例時可以提供給法官一些可供參考的方法。目前雖然形成了若干類案檢索平臺,但是其在類案智慧判斷、類案檢索方式、類案對象歸納與排列、類案檢索服務等方面存在一定的不足。當法官進行類案檢索時采用的方法絕大部分都是利用案件中的關鍵字對卷宗集進行檢索,但這樣并不精準,檢索的結果往往是數量巨大的案件,下一步則需要法官人工閱讀案例,逐個比對判斷相似與否這就耗費了很多時間。而隨著互聯網時代的到來,人工智能時代的到來,通過計算機輔助法官形成智慧法院已經成為現實。
目前對于法律文本類案檢索的方法主要有基于Bm25、Jaccard相似度等經典算法和基于Word2Vec、RCNN、LSTM等傳統深度神經網絡兩個大類。但這兩類方法都存在著一定的問題和不足,基于Bm25、Jaccard相似度等經典算法對于文本長度沒有限制,但其檢索性能相比于深度神經網絡來說要遜色很多。而對基于深度神經網絡的方法來說,往往需要十分充足的數據量來對模型進行訓練以支撐后續的檢索效果,同時模型性能也十分受限于文本長度。
發明內容
本發明提供了一種基于預訓練語言模型的法律文本類案檢索方法及系統,其目的是為了提高模型的精度和推理能力,提升模型的檢索性能。
為了達到上述目的,本發明提供了一種基于預訓練語言模型的法律文本類案檢索方法,包括:
步驟1,根據原始法律主句文本數據和檢索池文本數據,將待檢索的法律文本類案信息整理成包括有主句和被檢索句的數據信息作為模型訓練的輸入數據;
步驟2,將所述輸入數據中的主句和被檢索句進行分詞處理和無效詞性篩選,基于人工構建的罪名表定位函數得到最終具有關鍵信息的數據;
步驟3,對所述具有關鍵信息的數據進行位置向量的計算,確定數據之間的位置關系;
步驟4,通過對數據進行傳遞閉包,擴充訓練數據中的正樣本,并對所述正樣本進行對抗訓練,采用R-drop的方法提高模型的性能,使模型更好地學習到相似案例之間的關系;
步驟5,采用Roberta預訓練模型結合模型進行預測,將對抗訓練和R-drop的引入作為輸入樣本,通過Dropout來生成兩次稍有不同的樣本,計算出整體模型的損失,增強模型的全局特征提取能力;
步驟6,獲取多個查詢主句案例,對每一個查詢主句案例對應的檢索案例池進行篩選,利用訓練好的預訓練語言模型,檢索出與查詢主句案例相關的法律文本類案。
其中,所述步驟2包括:
步驟21,將所述輸入數據中的主句和被檢索句采用根據特殊標點符號作為分句函數判斷依據的標準對輸入數據進行初步切分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210040271.4/2.html,轉載請聲明來源鉆瓜專利網。





