[發明專利]基于預訓練語言模型的法律文本類案檢索方法及系統有效
| 申請號: | 202210040271.4 | 申請日: | 2022-01-14 |
| 公開(公告)號: | CN114065760B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 李芳芳;蘇樸真;鄧曉衡;張健 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/194;G06F16/33;G06K9/62 |
| 代理公司: | 長沙軒榮專利代理有限公司 43235 | 代理人: | 叢詩洋 |
| 地址: | 410000 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 語言 模型 法律 文本 檢索 方法 系統 | ||
1.一種基于預訓練語言模型的法律文本類案檢索方法,其特征在于,包括:
步驟1,根據原始法律主句文本數據和檢索池文本數據,將待檢索的法律文本類案信息整理成包括有主句和被檢索句的數據信息作為模型訓練的輸入數據;
步驟2,將所述輸入數據中的主句和被檢索句進行分詞處理和無效詞性篩選,基于人工構建的罪名表定位函數得到最終具有關鍵信息的數據;
步驟3,對所述具有關鍵信息的數據進行位置向量的計算,確定數據之間的位置關系;
步驟4,通過對數據進行傳遞閉包,擴充訓練數據中的正樣本,并對所述正樣本進行對抗訓練,采用R-drop的方法提高模型的性能,使模型更好地學習到相似案例之間的關系;
步驟5,采用Roberta預訓練模型結合模型進行預測,將對抗訓練和R-drop的引入作為輸入樣本,通過Dropout來生成兩次稍有不同的樣本,計算出整體模型的損失,增強模型的全局特征提取能力;
步驟6,獲取多個查詢主句案例,對每一個查詢主句案例對應的檢索案例池進行篩選,利用訓練好的預訓練語言模型,檢索出與查詢主句案例相關的法律文本類案。
2.根據權利要求1所述的基于預訓練語言模型的法律文本類案檢索方法,其特征在于,所述步驟2包括:
步驟21,將所述輸入數據中的主句和被檢索句采用根據特殊標點符號作為分句函數判斷依據的標準對輸入數據進行初步切分;
步驟22,采用jieba詞性對初步切分的法律文本句子進行進一步的分詞處理,并對分詞處理結果進行詞性標注,再根據預設的無效詞性表對分詞后的文本進行詞性篩選,過濾掉無效詞性的文本,將有效詞重組成為有效句后得到初步清洗后的法律文本數據;
步驟23,構建罪名表定位函數,根據句中是否包含罪名表內的罪名條目對初步清洗后的法律文本數據進行句子級的篩選,若當前句中包含罪名表內的罪名條目則保留當前句以及與其相鄰的前后距離為2的句子作為相關句子,記錄相匹配的罪名條目作為相關罪名,將相關句子重組為處理后的文本,將相關罪名拼接于文本首部得到最終具有關鍵信息的數據。
3.根據權利要求1所述的基于預訓練語言模型的法律文本類案檢索方法,其特征在于,所述步驟3具體包括:
對于位置向量的計算我們采用sin和cos函數進行計算,計算過程公式如下所示:
其中,為位置向量的長度,為詞語的位置,代表詞語的維度。
4.根據權利要求1所述的基于預訓練語言模型的法律文本類案檢索方法,其特征在于,所述步驟4包括:
所述對抗訓練的公式如下所示:
其中,D為訓練集,x為輸入數據,y為標簽,為模型參數,為單個數據樣本的Loss,為對抗擾動,為對抗擾動的擾動空間。
5.根據權利要求4所述的基于預訓練語言模型的法律文本類案檢索方法,其特征在于,所述步驟4中所述對抗訓練的步驟具體包括:
將注入訓練數據x,其中的目的在于使得取到最大值;
對加以約束使得其絕對值要小于一個常數,形式如公式:
其中,為常數;
對于生成的對抗樣本后,以生成的(作為訓練數據來最小化Loss以更新參數;
反復執行上述步驟。
6.根據權利要求5所述的基于預訓練語言模型的法律文本類案檢索方法,其特征在于,所述的取值以及計算過程包括:
在NLP任務中為了最小化Loss采用的是梯度下降,那么反過來說為了增大單個數據樣本的Loss,則需要使梯度上升,故對于的取值為:
為了防止過大同時滿足,將進行標準化處理,標準化方式如以下公式所示:
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210040271.4/1.html,轉載請聲明來源鉆瓜專利網。





