[發(fā)明專利]一種針對(duì)司法裁判文書的兩階段混合式自動(dòng)摘要方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111494073.7 | 申請(qǐng)日: | 2021-12-08 |
| 公開(公告)號(hào): | CN114169312A | 公開(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計(jì))人: | 李波;歐陽(yáng)建權(quán);黃文鵬 | 申請(qǐng)(專利權(quán))人: | 湘潭大學(xué);湖南海龍國(guó)際智能科技股份有限公司 |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F16/35;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 北京卓恒知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11394 | 代理人: | 徐樓;卜婷 |
| 地址: | 411105 湖南*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 司法 裁判 文書 階段 混合式 自動(dòng) 摘要 方法 | ||
1.一種針對(duì)司法裁判文書的兩階段混合式自動(dòng)摘要方法,其特征在于,該方法包括以下幾個(gè)步驟:
1)對(duì)裁判文書中關(guān)鍵句子的相似度進(jìn)行計(jì)算,并對(duì)關(guān)鍵句子的摘要模型進(jìn)行編碼、分類,最后將摘要關(guān)鍵句抽取;
2)從裁判文書中抽取出句子組合成關(guān)鍵句子合集;
3)將步驟2)中的關(guān)鍵句子合集作為生成式模型的輸入,通過(guò)模型編碼、解碼生成文本摘要。
2.根據(jù)權(quán)利要求1所述的針對(duì)司法裁判文書的兩階段混合式自動(dòng)摘要方法,其特征在于,步驟1)中關(guān)鍵句子的相似度進(jìn)行計(jì)算包括:
步驟1.1)對(duì)裁判文書進(jìn)行分句,然后在裁判文書中找到人工標(biāo)準(zhǔn)的句子,再?gòu)脑闹袑ふ页鱿嗨贫茸罡叩木渥樱鳛槌槿∈秸臉?biāo)簽數(shù)據(jù)集;通過(guò)余弦相似度計(jì)算人工摘要中的句子與源文檔中句子的相似度得分,選擇源文檔中得分最高的句子,即關(guān)鍵句子。
3.根據(jù)權(quán)利要求1或2所述的針對(duì)司法裁判文書的兩階段混合式自動(dòng)摘要方法,其特征在于,步驟1)中還包括:
步驟1.2)文本向量化,通過(guò)相似度計(jì)算后獲得的句子與裁判文書中的原文在同一行中,采用jieba對(duì)源文本、標(biāo)簽數(shù)據(jù)、人工摘要進(jìn)行分詞;在分詞過(guò)程中,爬取法律名詞作為詞庫(kù)的補(bǔ)充,然后再使用BERT模型進(jìn)行詞向量化。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的針對(duì)司法裁判文書的兩階段混合式自動(dòng)摘要方法,其特征在于,步驟1)中對(duì)關(guān)鍵句子的摘要模型進(jìn)行編碼包括:
抽取式模型編碼;在編碼層,詞嵌入采用目標(biāo)詞嵌入向量,對(duì)于一篇有n個(gè)句子的文本D={S1,S2,……,Sn},通過(guò)兩個(gè)特殊標(biāo)記進(jìn)行預(yù)處理;首先,在每個(gè)句子的句首插入[CLS]標(biāo)記、句尾插入[SEP]標(biāo)記組成輸入;[CLS]標(biāo)記代表當(dāng)前句子的向量,[SEP]標(biāo)記代表分句用于切分文本中的句子;在詞嵌入的基礎(chǔ)上,還設(shè)有輸入的位置嵌入和分段嵌入;
所述位置嵌入;將單詞的位置信息編碼為特征向量,位置向量采用了《Attention isAll You Need》中的方案:
PE(pos,2i)=sin(pos/100002i/dmodel);
PE(pos,2i+1)=cos(pos/100002i/dmodel);
式中,pos表示詞在句中的位置,取值范圍為[0,n];i指的是詞向量的維度;dmodel為BERT的輸入為128-1024,優(yōu)選為256-512;
所述分段嵌入;用于區(qū)分兩個(gè)句子,不同句子之前分別為A和B標(biāo)記,所以輸入的句子表示為(EA,EB,EA,EB,……);將詞嵌入、位置嵌入和分段嵌入表示拼接為BERT模型輸入;經(jīng)由BERT模型預(yù)訓(xùn)練層后得到的句向量X=(X1,X2,……,Xn)=BERT(sent1,sent2,sent3,……,sentn),其中senti表示為原裁判文書的第i個(gè)句子,Xi對(duì)應(yīng)的senti經(jīng)BERT編碼后的向量,Xi需要處理的第i個(gè)向量序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湘潭大學(xué);湖南海龍國(guó)際智能科技股份有限公司,未經(jīng)湘潭大學(xué);湖南海龍國(guó)際智能科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111494073.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 司法綜合服務(wù)聲訊系統(tǒng)
- 司法文書的檢索方法及裝置
- 司法問(wèn)答方法及相關(guān)設(shè)備
- 司法熱點(diǎn)確定方法及裝置
- 司法文書送達(dá)信息共享方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于三元組深度哈希學(xué)習(xí)的相似司法案例匹配方法及系統(tǒng)
- 一種基于可解釋因果模型的司法判決推理方法
- 基于供應(yīng)商規(guī)模的司法風(fēng)險(xiǎn)預(yù)警方法、裝置、終端
- 司法案件的聚合方法、設(shè)備和存儲(chǔ)介質(zhì)
- 一種對(duì)企業(yè)司法風(fēng)險(xiǎn)進(jìn)行量化評(píng)分定級(jí)的方法及裝置





