[發(fā)明專利]一種基于深度學(xué)習(xí)混合模型的爭(zhēng)議焦點(diǎn)檢測(cè)方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110007332.2 | 申請(qǐng)日: | 2021-01-05 |
| 公開(公告)號(hào): | CN112613582B | 公開(公告)日: | 2022-06-24 |
| 發(fā)明(設(shè)計(jì))人: | 鄧維斌;朱坤;胡峰;李云波;王崇宇;彭露;黃龍海;陳航 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06F40/279;G06F40/211;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 混合 模型 爭(zhēng)議 焦點(diǎn) 檢測(cè) 方法 裝置 | ||
1.一種基于深度學(xué)習(xí)混合模型的爭(zhēng)議焦點(diǎn)檢測(cè)方法,其特征在于:所述方法包括以下步驟:
S1、構(gòu)建爭(zhēng)議焦點(diǎn)樹庫(kù),剔除冗余的爭(zhēng)議焦點(diǎn),得到爭(zhēng)議焦點(diǎn)標(biāo)簽集合C;
S2、從爭(zhēng)議焦點(diǎn)樹庫(kù)中獲得案例文件,從案例文件中提取原告和被告的訴辯內(nèi)容,利用構(gòu)建好的爭(zhēng)議焦點(diǎn)樹庫(kù),結(jié)合先驗(yàn)知識(shí)及人工規(guī)則,完成數(shù)據(jù)的標(biāo)注,并統(tǒng)一為“原告訴稱”+“被告辯稱”+“爭(zhēng)議焦點(diǎn)標(biāo)簽”格式,得到數(shù)據(jù)集;
S3、采用先驗(yàn)知識(shí)與主動(dòng)學(xué)習(xí)相結(jié)合的方法擴(kuò)充數(shù)據(jù)集,得到完整可訓(xùn)練的數(shù)據(jù)集;
S4、將步驟S3得到的數(shù)據(jù)集進(jìn)行中文數(shù)據(jù)預(yù)處理,并將預(yù)處理后的數(shù)據(jù)轉(zhuǎn)換為模型輸入所需要的數(shù)據(jù)格式;
S5、利用BERT-wwm全字掩蔽模型訓(xùn)練得到文本字向量矩陣,將文本字向量矩陣同時(shí)作為雙向LSTM網(wǎng)絡(luò)模型和TextCNN網(wǎng)絡(luò)模型的輸入;
S6、使用雙向LSTM網(wǎng)絡(luò)模型提取文本全局語義特征;在TextCNN模型中利用不同大小的卷積核提取文本不同粒度的局部語義特征;將兩個(gè)模型的概率結(jié)果進(jìn)行平均計(jì)算,設(shè)定閾值進(jìn)行預(yù)測(cè),輸出概率超過閾值的爭(zhēng)議焦點(diǎn);
所述S6具體為:
設(shè)定閾值進(jìn)行預(yù)測(cè),輸出概率超過閾值的爭(zhēng)議焦點(diǎn)定義為:
將BERT-wwm全字掩蔽輸出的字向量矩陣作為雙向LSTM模型和TextCNN模型的輸入;
TextCNN模型中使用一維卷積,并設(shè)置大小不同的卷積核提取多個(gè)粒度的局部特征,兩個(gè)模型分別預(yù)測(cè)每個(gè)爭(zhēng)議焦點(diǎn)標(biāo)簽得分,該爭(zhēng)議焦點(diǎn)標(biāo)簽的列數(shù)為|C|,使用sigmod函數(shù)激活得到每個(gè)標(biāo)簽的概率值,將兩個(gè)模型的得到的概率結(jié)果算數(shù)平均,在[0.5,0.7]數(shù)值范圍內(nèi)按步長(zhǎng)0.01設(shè)置閾值,超過閾值則預(yù)測(cè)為該標(biāo)簽存在爭(zhēng)議焦點(diǎn),用1表示;低于閾值則預(yù)測(cè)為該標(biāo)簽不是爭(zhēng)議焦點(diǎn),用0表示。
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)混合模型的爭(zhēng)議焦點(diǎn)檢測(cè)方法,其特征在于:
所述步驟S1中,爭(zhēng)議焦點(diǎn)樹庫(kù)的構(gòu)建具體為:根據(jù)案由將案件分為民事案件、刑事案件和行政案件三類;
該民事案件包括民間借貸糾紛、機(jī)動(dòng)車交通事故責(zé)任糾紛、離婚糾紛、追索勞動(dòng)報(bào)酬糾紛和股權(quán)轉(zhuǎn)讓糾紛;
該刑事案件包括盜竊罪、詐騙罪、危險(xiǎn)駕駛罪、故意傷害罪和受賄罪;
該行政案件包括勞動(dòng)和社會(huì)保障行政管理、道路交通管理、房屋拆遷管理、商標(biāo)行政管理和金融行政管理;
針對(duì)每一類案由,結(jié)合法學(xué)知識(shí),歸納出相應(yīng)的爭(zhēng)議焦點(diǎn),并導(dǎo)入爭(zhēng)議焦點(diǎn)的原告和被告表述文本及相應(yīng)的裁判文書,形成爭(zhēng)議焦點(diǎn)樹;
根據(jù)真實(shí)的且法律適用的爭(zhēng)議焦點(diǎn)及其性質(zhì),對(duì)每一類爭(zhēng)議焦點(diǎn)樹進(jìn)行再次的歸納、篩選、梳理、抽象提取和文本編輯,最終完成對(duì)案由案件的爭(zhēng)議焦點(diǎn)樹庫(kù)的構(gòu)建。
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)混合模型的爭(zhēng)議焦點(diǎn)檢測(cè)方法,其特征在于:所述步驟S3中,擴(kuò)充數(shù)據(jù)具體為:
從爭(zhēng)議焦點(diǎn)樹庫(kù)取得標(biāo)注好的數(shù)據(jù)后,通過研究法律文本規(guī)范性的特征,對(duì)每一個(gè)爭(zhēng)議焦點(diǎn)撰寫規(guī)則,選取隨機(jī)森林作為分類器,通過查詢函數(shù)在未標(biāo)注的樣本數(shù)據(jù)集中查詢信息量大的樣本,利用先驗(yàn)知識(shí)和規(guī)則對(duì)這些未標(biāo)注的樣本進(jìn)行標(biāo)注糾正,迭代訓(xùn)練,完成對(duì)數(shù)據(jù)的擴(kuò)充。
4.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)混合模型的爭(zhēng)議焦點(diǎn)檢測(cè)方法,其特征在于:所述步驟S4中,數(shù)據(jù)預(yù)處理具體為:
讀取文本,提取原告訴稱和被告辯稱文本內(nèi)容,去除文本中的英文字符、表情和亂碼,對(duì)文本進(jìn)行分句;
使用分詞工具和司法領(lǐng)域?qū)S凶值鋵?duì)句子分詞,去除停用詞;
計(jì)算句子得分,選取得分排名靠前的句子,并保持句子在原文本中的順序。
5.根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)混合模型的爭(zhēng)議焦點(diǎn)檢測(cè)方法,其特征在于:所述計(jì)算句子得分為:利用詞頻逆文本頻率指數(shù)TF-IDF方法計(jì)算句子中每一個(gè)詞的tf-idf值,句子的得分score為所有詞的tf-idf值之和。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110007332.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





