[發(fā)明專利]一種基于enhance matrix的法律案件候選段落的選取方法及裝置有效
| 申請?zhí)枺?/td> | 202110543628.6 | 申請日: | 2021-05-19 |
| 公開(公告)號(hào): | CN113361261B | 公開(公告)日: | 2022-09-09 |
| 發(fā)明(設(shè)計(jì))人: | 胡峰;董磊;鄧維斌 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 盧勝斌 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 enhance matrix 法律 案件 候選 段落 選取 方法 裝置 | ||
1.一種基于enhance matrix的法律案件候選段落的選取方法,其特征在于,包括以下步驟:
對帶有推理性質(zhì)的法律閱讀理解數(shù)據(jù)集進(jìn)行處理,將一個(gè)樣本數(shù)據(jù)中的候選段落的標(biāo)簽標(biāo)為1,非候選段落標(biāo)為0,獲取具有候選段落標(biāo)注的法律數(shù)據(jù)集;
將每個(gè)樣本中的問題與段落分別進(jìn)行連接,并通過attention操作通過Bert模型輸出兩個(gè)不同模型參數(shù)的段落向量矩陣,根據(jù)兩個(gè)不同模型參數(shù)的段落向量矩陣計(jì)算相似度矩陣R;
針對每個(gè)樣本構(gòu)建EM矩陣,在EM矩陣中EMij表示第i個(gè)段落和第j個(gè)段落關(guān)于詞語的增量關(guān)系,即判斷段落i和段落j與樣本問題之間時(shí)候存在詞語包含關(guān)系,存在設(shè)置為1;計(jì)算段落i與段落j之間關(guān)于詞語的詞向量相似度并取top k計(jì)算值的和;將前兩步驟得到的值進(jìn)行相加,將相加的值作為第i個(gè)段落和第j個(gè)段落關(guān)于詞語的增量關(guān)系;段落i與段落j之間關(guān)于詞語的詞向量相似度表示為:
其中,COS(xiyj)表示段落x的第i個(gè)分詞與段落y的第j個(gè)分詞之間的詞向量余弦距離;m為段落x的分詞個(gè)數(shù),n為段落y的分詞個(gè)數(shù);
對相似度矩陣R和EM矩陣進(jìn)行相加操作,將相加之后的矩陣通過softmax函數(shù)計(jì)算得到段落之間的相似權(quán)值,使用段落向量和對應(yīng)權(quán)值的乘積相加得到更新后的段落向量表示;
將更新后的段落向量表示接二分類任務(wù),使用sigmoid作為激活函數(shù),對法律閱讀理解候選段落數(shù)據(jù)集進(jìn)行訓(xùn)練,得到訓(xùn)練好的模型;
在訓(xùn)練好的模型中輸入未知候選段落的法律文本,輸出段落分類的概率,取top n得到最終候選段落結(jié)果。
2.據(jù)權(quán)利要求1所述的一種基于enhance matrix的法律案件候選段落的選取方法,其特征在于,段落x的第i個(gè)分詞與段落y的第j個(gè)分詞之間的詞向量余弦距離COS(xiyj)表示為:
其中,w為詞向量的維度大小,xik為段落x的第i個(gè)向量k個(gè)維度的向量值;yjk為段落y的第i個(gè)向量k個(gè)維度的向量值。
3.根據(jù)權(quán)利要求1所述的一種基于enhance matrix的法律案件候選段落的選取方法,其特征在于,一個(gè)樣本數(shù)據(jù)的問題必須通過至少2個(gè)候選段落的推理來得出,即一個(gè)樣本的至少有兩個(gè)候選段落,且樣本數(shù)據(jù)至少有一個(gè)非候選段落。
4.根據(jù)權(quán)利要求1所述的一種基于enhance matrix的法律案件候選段落的選取方法,其特征在于,通過Bert網(wǎng)絡(luò)得到的段落向量,樣本中所有段落向量構(gòu)成向量矩陣X,X與兩個(gè)不同的權(quán)重W計(jì)算得到兩個(gè)矩陣Q、K,則相似度矩陣R表示為:
其中,dk為向量矩陣的維度,kT中的上標(biāo)T表示轉(zhuǎn)置矩陣。
5.一種基于enhance matrix的法律案件候選段落的選取裝置,其特征在于,包括候選段落數(shù)據(jù)處理模塊、Bert表征模塊、增量處理模塊、模型訓(xùn)練模塊以及候選段落輸出模塊,其中:
候選段落數(shù)據(jù)處理模塊,用于執(zhí)行對獲取帶有推理性質(zhì)的閱讀理解數(shù)據(jù)集進(jìn)行處理,根據(jù)數(shù)據(jù)集要求答案必須通過至少2個(gè)候選段落的推理來得出答案的特點(diǎn)來選出候選段落并進(jìn)行標(biāo)簽標(biāo)注,獲取將是否為候選段落作為標(biāo)簽的數(shù)據(jù)集;
Bert表征模塊,用于執(zhí)行對候選段落數(shù)據(jù)集中每個(gè)樣本中的段落和問題進(jìn)行表征算法,將問題文本和段落文本合并,截取或補(bǔ)全為512長度的輸入,輸入到已經(jīng)過預(yù)訓(xùn)練的Bert模型,獲得問題和段落向量的表示,提取出段落向量來構(gòu)造每個(gè)樣本的段落向量矩陣;
增量處理模塊,用于執(zhí)行對段落向量矩陣執(zhí)行增量處理算法,即通過attention機(jī)制來學(xué)習(xí)段落向量矩陣之間的相似度矩陣R,隨后根據(jù)兩個(gè)不同段落與樣本問題之間的詞語包含關(guān)系以及兩個(gè)不同段落關(guān)于詞語向量的相似度的計(jì)算結(jié)果生成enhance matrix矩陣,并使用enhance matrix矩陣進(jìn)一步對相似度矩陣R進(jìn)行增量處理;enhance matrix矩陣中EMij表示第i個(gè)段落和第j個(gè)段落關(guān)于詞語的增量關(guān)系,即判斷段落i和段落j與樣本問題之間時(shí)候存在詞語包含關(guān)系,存在設(shè)置為1;計(jì)算段落i與段落j之間關(guān)于詞語的詞向量相似度并取top k計(jì)算值的和;將前兩步驟得到的值進(jìn)行相加,將相加的值作為第i個(gè)段落和第j個(gè)段落關(guān)于詞語的增量關(guān)系;段落i與段落j之間關(guān)于詞語的詞向量相似度表示為:
其中,COS(xiyj)表示段落x的第i個(gè)分詞與段落y的第j個(gè)分詞之間的詞向量余弦距離;m為段落x的分詞個(gè)數(shù),n為段落y的分詞個(gè)數(shù);
模型訓(xùn)練模塊,用于執(zhí)行模型的訓(xùn)練任務(wù),通過二分類任務(wù)完成模型訓(xùn)練,得到最后的模型;
候選段落輸出模塊,用于輸出未知候選段落的法律文本的候選段落選取結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110543628.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





