[發明專利]一種基于半監督、雙層多分類的訴請識別方法在審
| 申請號: | 202310171687.4 | 申請日: | 2023-02-27 |
| 公開(公告)號: | CN116304033A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 張凡凡;譚曉穎;李曉智;劉賢艷;孫曉銳;李娜娜;胡亞謙 | 申請(專利權)人: | 中國司法大數據研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/24;G06F18/214;G06F18/21 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100144 北京市石景*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 雙層 分類 訴請 識別 方法 | ||
1.一種基于半監督、雙層多分類的訴請識別方法,其步驟包括:
1)獲取訓練文本集:包括包含少量有標注訴訟請求數據的標注數據集和包含大量未標注訴訟請求數據的未標注數據集;
2)對所述標注數據集中各有標注訴訟請求數據進行數據增強后輸入教師模型中,對教師模型進行訓練并得到各標注類別的自適應閾值;利用訓練后的教師模型對所述未標注數據集中的每一未標注訴訟請求數據進行分類,得到各未標注訴訟請求數據的類別并將其作為對應未標注訴訟請求數據的偽標簽,得到偽標簽標注數據;然后使用各類別的自適應閾值對對應偽標簽標注數據進行篩選;
3)利用步驟2)篩選得到的偽標簽標注數據和數據增強后的有標注訴訟請求數據訓練學生模型,得到學生模型model1;
4)利用所述學生模型model1對測試集中的數據進行分類預測,根據分類預測結果計算每一類別的F1分數;如果一類別的F1分數低于設定閾值,則將該類別下所有分類預測結果錯誤樣本的概率值排名前n個類別組成m個不同的n分類任務,通過m個n分類任務訓練多任務模型,得到多任務模型model2;
5)將所述學生模型model1和所述多任務模型model2串聯組成雙層模型model3;
6)將待分類的民事訴請文本輸入所述模型model3中,得到該民事訴請文本中的訴訟請求類別。
2.根據權利要求1所述的方法,其特征在于,對所述標注數據集進行數據增強的方法包括:
21)對于所述標注數據集內每一有標注訴訟請求數據i,通過法律領域的命名實體識別模型提取該有標注訴訟請求數據i中的時間、地點、人名、金額;然后對提取到的時間做部分加減操作得到處理后的時間,利用法律領域已有的地點詞庫對所提取地點做對應替換得到處理后的地點,利用法律領域已有的人名庫對提取的人名做對應替換得到處理后的人名,對提取到的金額做部分加減操作得到處理后的金額;
22)根據該有標注訴訟請求數據i中的標簽詞,查找法律領域現有同義詞庫中的同義詞;
23)查找該有標注訴訟請求數據i中除時間、地點、人名、金額、標簽詞之外的詞匯的同義詞或近義詞;
24)將步驟21~23)所得結果進行交叉組合,對該有標注訴訟請求數據i中對應的信息進行替換,得到有標注訴訟請求數據i的有標簽增強數據。
3.根據權利要求2所述的方法,其特征在于,得到各標注類別的自適應閾值的方法為:利用有標注訴訟請求數據對教師模型進行多輪訓練,利用每輪訓練后的教師模型對驗證集中的樣本進行分類,并計算每一分類中分類正確樣本對應概率值的均值;取多輪訓練后計算所得各類均值中的最大值作為對應類的自適應閾值。
4.根據權利要求1或2或3所述的方法,其特征在于,將待分類的民事訴請文本輸入所述模型model3中,得到該民事訴請文本中的訴訟請求類別的方法為:首先通過所述學生模型model1對該民事訴請文本進行分類,若所輸出類別屬于layer1中的類別,則輸出分類結果;否則將所述學生模型model1對該民事訴請文本的分類結果中概率值排名前n個類別組成m個不同的n分類任務,輸入所述多任務模型model2,得到該民事訴請文本中的訴訟請求類別;其中,layer1中的類別為所述學生模型model1在測試集分類預測結果中的單類F1分數大于設定閾值的類別。
5.一種服務器,其特征在于,包括存儲器和處理器,所述存儲器存儲計算機程序,所述計算機程序被配置為由所述處理器執行,所述計算機程序包括用于執行權利要求1至4任一所述方法中各步驟的指令。
6.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至4任一所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國司法大數據研究院有限公司,未經中國司法大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310171687.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水產養殖用水質改善裝置
- 下一篇:一種鋯氧化物及其制備方法





