[發明專利]一種裁判文書結構化處理方法及系統有效
| 申請號: | 201910893066.0 | 申請日: | 2019-09-20 |
| 公開(公告)號: | CN110750974B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 請求不公布姓名 | 申請(專利權)人: | 成都星云律例科技有限責任公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06Q50/18 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 熊曦 |
| 地址: | 610000 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 裁判 文書 結構 處理 方法 系統 | ||
1.一種裁判文書結構化處理方法,其特征在于,所述方法包括:
收集歷史裁判文書,建立裁判文書語料庫;
分析裁判文書結構,將裁判文書分為若干部分,每個部分對應一個標簽;
將裁判文書語料庫中的每篇裁判文書按照自然段分隔為多個段落;
從裁判文書語料庫中提取部分裁判文書,將每篇裁判文書的每個段落打上裁判文書結構標簽之一,作為標注數據;
將標注數據劃分為訓練集和驗證集;
構建語言模型,預訓練語言模型,包括:給定每個單詞初始的向量表示,使用兩個預測任務訓練語言模型,在語言模型訓練過程中更新單詞向量,得到預訓練語言模型;
計算預訓練語言模型的損失函數;
將訓練集輸入預訓練語言模型,得到段落的向量表示;輸入該向量表示及段落的標注數據訓練預測分段模型,得到初步預測分段模型;
將驗證集輸入預訓練語言模型,得到段落的向量表示;將該向量表示輸入初步預測分段模型,得到輸入段落的初步預測分段結果;對比預測的分段結果與標注的分段結果優化初步預測分段模型,得到最優預測分段模型;
將待預測的段落x輸入預訓練語言模型,得到段落x的向量表示,將段落x的向量表示輸入最優預測分段模型,得到段落x的分段結果;
其中,第一預測任務是雙向Masked?LM,給定一個段落,隨機刪除段落中的一個或幾個詞,預測刪除的詞,實現雙向的語言模型;
第二預測任務是next?sentence預測,在預訓練語言模型時分兩種情況選擇兩個段落,一種是選擇裁判文書中順序相連的兩個段落;另一種是從所有裁判文書段落中隨機選擇兩個沒有上下文關系的段落拼接。
2.根據權利要求1所述的一種裁判文書結構化處理方法,其特征在于,裁判文書的結構包括:判決書名稱、法院名稱、文書類型、案號、當事人信息、案件審理信息、原告訴稱、被告辯稱、第三人述稱、證據、法院認定事實、法院說理部分、裁判依據、裁判結果、案件受理費、上訴法院、文書尾部以及附錄共18個部分。
3.根據權利要求1所述的一種裁判文書結構化處理方法,其特征在于,所述方法還包括:對裁判文書語料庫中的每篇裁判文書,將兩個段落用分隔符[SEP]隔開,每個段落前設置起始符號[CLS]。
4.根據權利要求3所述的一種裁判文書結構化處理方法,其特征在于,所述方法還包括:微調語言模型的最后一層,具體方法為:根據起始符號[CLS]的標志生成一組特征向量,將[CLS]位置看作語料的一部分,預測該位置,計算將其分為裁判文書結構標簽之一的概率,Softmax層歸一化將段落分為指定的裁判文書結構標簽之一的概率;再添加一個輸出層將[CLS]對應位置概率最大的標簽值輸出,最終[CLS]對應位置的輸出即為這個段落的分類結果。
5.根據權利要求1所述的一種裁判文書結構化處理方法,其特征在于,語言模型的損失函數為兩個預測任務的損失函數之和;利用梯度下降法求損失函數的最優解,得到每個單詞最終的詞嵌入向量。
6.根據權利要求5所述的一種裁判文書結構化處理方法,其特征在于,每個單詞最終的詞嵌入向量由三個向量拼接而成,包括:位置向量、單詞向量和段落向量,位置向量表示單詞順序,單詞向量表示普通的單詞嵌入向量,段落向量表示每個段落中單詞的整體向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都星云律例科技有限責任公司,未經成都星云律例科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910893066.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動態模板配置方法及系統
- 下一篇:介紹文本生成方法及裝置





