[發(fā)明專利]基于多任務(wù)的小樣本學(xué)習(xí)的裁判文書爭(zhēng)議焦點(diǎn)提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010792816.8 | 申請(qǐng)日: | 2020-08-10 |
| 公開(公告)號(hào): | CN111651566B | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 不公告發(fā)明人 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué);成都數(shù)之聯(lián)科技有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/211;G06N3/08;G06N3/04 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 任務(wù) 樣本 學(xué)習(xí) 裁判 文書 爭(zhēng)議 焦點(diǎn) 提取 方法 | ||
1.基于多任務(wù)的裁判文書爭(zhēng)議焦點(diǎn)提取方法,其特征在于,包括以下步驟:
S1、依據(jù)n個(gè)案由數(shù)據(jù)中有爭(zhēng)議的判斷問題進(jìn)行分類,將所述有爭(zhēng)議的判斷問題分類為爭(zhēng)議性問題重復(fù)訴訟事由組G1、一般程序法爭(zhēng)議問題組G2、一般實(shí)體法爭(zhēng)議問題組G3和非一般性法律爭(zhēng)議問題及事實(shí)爭(zhēng)議問題組;
S2、整理非一般性法律爭(zhēng)議問題及事實(shí)爭(zhēng)議問題組并對(duì)其中的與案件事實(shí)相關(guān)的爭(zhēng)議性問題數(shù)據(jù)G4文本數(shù)據(jù)做如下處理:
步驟S2A、采用bert模型向量化G4文本數(shù)據(jù),使用GMM高斯混合模型聚合向量化后的G4文本數(shù)據(jù)得到k個(gè)類別數(shù)據(jù);
步驟S2B、對(duì)聚合G4文本數(shù)據(jù)后的k個(gè)類別數(shù)據(jù)生成k個(gè)類別標(biāo)簽數(shù)據(jù),對(duì)k個(gè)類別標(biāo)簽數(shù)據(jù)采用LDA自動(dòng)獲取得到c個(gè)集群標(biāo)簽數(shù)據(jù);
步驟S2C、標(biāo)注操作:依據(jù)得到的c個(gè)集群標(biāo)簽數(shù)據(jù)進(jìn)行判斷操作,判斷操作具體為:刪除不屬于當(dāng)前集群標(biāo)簽數(shù)據(jù)的類別標(biāo)簽數(shù)據(jù);
計(jì)算集群標(biāo)簽數(shù)據(jù)之間的數(shù)據(jù)相似度,確定相似集群,搜索具有相似集群標(biāo)簽數(shù)據(jù)的集群,判斷是否合并所述集群,依據(jù)判斷結(jié)果操作后得到標(biāo)注爭(zhēng)議焦點(diǎn)的集群標(biāo)簽數(shù)據(jù);
應(yīng)用所述方法得到的標(biāo)注數(shù)據(jù)采用數(shù)據(jù)增強(qiáng)擴(kuò)充所述標(biāo)注數(shù)據(jù)的樣本數(shù)量;
還包括解決小樣本問題的方法如下:包括采用同義詞替換,隨機(jī)插入,隨機(jī)交互,隨機(jī)刪除,回譯的方式將標(biāo)注數(shù)據(jù)的樣本從一條數(shù)據(jù)擴(kuò)展為10條數(shù)據(jù),擴(kuò)展后的標(biāo)注數(shù)據(jù)進(jìn)行如下操作:
構(gòu)建bert模型,所述模型的底層采用bert模型構(gòu)建作為句子的表征,所述bert模型采用千萬級(jí)別的文本進(jìn)行訓(xùn)練;
應(yīng)用所述模型結(jié)合擴(kuò)展后的標(biāo)注數(shù)據(jù),得到bert的表征層,bert模型的表征層為所述模型中bert模型的第12層對(duì)應(yīng)的CLF位置的向量,所述表征層后為n個(gè)分類層,每個(gè)案由數(shù)據(jù)占據(jù)一個(gè)分類層;
采用多任務(wù)學(xué)習(xí)的方式訓(xùn)練n個(gè)案由數(shù)據(jù),n個(gè)分類層共享了bert模型的第十二層之前的bert模型結(jié)構(gòu),bert模型的第十二層之前的bert模型結(jié)構(gòu)為n個(gè)分類層的共享層,訓(xùn)練過程中通過神經(jīng)網(wǎng)絡(luò)反向傳播來優(yōu)化所述共享層的參數(shù),使得所述表征層能夠融合n個(gè)案由數(shù)據(jù);
多任務(wù)學(xué)習(xí)后對(duì)優(yōu)化共享層后的bert模型進(jìn)行模型剪裁,刪除n個(gè)分類層數(shù)據(jù),僅保留bert模型的前十二層數(shù)據(jù);
將基于多任務(wù)的裁判文書爭(zhēng)議焦點(diǎn)提取方法得到的所述標(biāo)注數(shù)據(jù)輸入上述剪裁后的bert模型,剪裁后的bert模型依據(jù)所述標(biāo)注數(shù)據(jù)的爭(zhēng)議焦點(diǎn)種類輸出向量數(shù)據(jù),將多組向量數(shù)據(jù)進(jìn)行向量平均后計(jì)算歐式距離,每組向量數(shù)據(jù)表示一類標(biāo)注數(shù)據(jù),得到歐式距離最小的類向量所對(duì)應(yīng)的類別為所對(duì)應(yīng)的標(biāo)注數(shù)據(jù)的類別。
2.根據(jù)權(quán)利要求1所述的基于多任務(wù)的裁判文書爭(zhēng)議焦點(diǎn)提取方法,其特征在于,步驟S2A還包括詳細(xì)步驟如下:
向量化的具體過程為:對(duì)多條G4文本數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的數(shù)字id輸入bert模型,取bert模型第12層CLF位置的向量作為所述文本數(shù)據(jù)的向量表示;
向量化后的文本聚類具體操作為:高斯混合模型由K個(gè)高斯模型組成,數(shù)據(jù)包含K個(gè)類;
GMM的概率密度函數(shù)如下:
其中,p(x/k)=N(x/uk,Σk)是第k個(gè)高斯混合模型的概率密度函數(shù),當(dāng)選定第k個(gè)高斯混合模型,所述高斯混合模型產(chǎn)生x的概率;p(k)=πk是第k個(gè)高斯混合模型的權(quán)重,p(k)=πk是選擇第k個(gè)高斯混合模型的先驗(yàn)概率。
3.根據(jù)權(quán)利要求2所述的基于多任務(wù)的裁判文書爭(zhēng)議焦點(diǎn)提取方法,其特征在于,所述步驟S2C中還包括搜索相似集群標(biāo)簽的方法:使用編輯距離算法確定不同集群標(biāo)簽數(shù)據(jù)之間的重合度,同時(shí)采用word2vec的方法確定不相同的集群標(biāo)簽數(shù)據(jù)的相似度,從而確定具有相似集群標(biāo)簽數(shù)據(jù)的集群,向后輸出至判斷是否合并所述集群。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué);成都數(shù)之聯(lián)科技有限公司,未經(jīng)四川大學(xué);成都數(shù)之聯(lián)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010792816.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





