[發明專利]一種針對司法裁判文書的兩階段混合式自動摘要方法在審
| 申請號: | 202111494073.7 | 申請日: | 2021-12-08 |
| 公開(公告)號: | CN114169312A | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 李波;歐陽建權;黃文鵬 | 申請(專利權)人: | 湘潭大學;湖南海龍國際智能科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/35;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 北京卓恒知識產權代理事務所(特殊普通合伙) 11394 | 代理人: | 徐樓;卜婷 |
| 地址: | 411105 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 司法 裁判 文書 階段 混合式 自動 摘要 方法 | ||
一種針對司法裁判文書的兩階段混合式自動摘要方法,包括以下步驟:1)對裁判文書中關鍵句子中的相似度進行計算,以及對關鍵句子的摘要模型進行編碼、分類,最后將摘要關鍵句抽取;2)從裁判文書中抽取出句子組合成關鍵句子合集;3)將步驟2)中的關鍵句子合集作為生成式模型的輸入,通過模型編碼、解碼生成文本摘要。本發明能從眾多裁判文書中的長篇幅文本進行濃縮和提煉獲取精確的有用信息生成摘要。本發明提供的方法生成的摘要可讀性強、連續性強、辨識度高,保證本文與摘要之間的忠實度。
技術領域
本發明屬于裁判文書數據處理技術領域,具體設計一種針對司法裁判文書的兩階段混合式自動摘要方法。
背景技術
隨著信息時代的快速發展,互聯網上的數據量呈指數級增長。文本摘要技術通過對文本信息概括、總結,提煉出文章的主旨,利用文摘代替原文章參與索引,可以有效縮短檢索的時間,同時也能減少檢索結果中的冗余信息,能讓用戶從大量數據中高效地獲取所需信息。
現有的互聯網法院等智能系統一般作為法律工作者的輔助工作進行使用,例如,通過語義分析等技術從裁判文書中提取信息,或者通過人工處理的方式構建各個法律要素之間的聯系。裁判文書書寫規范,然而內容詳盡冗長,當前通常通過從裁判文書中抽取權重較大的詞語、短語和句子進行組合生成摘要,這種方式生成的摘要語義連貫性較差,缺乏對法律、裁判知識的有效融合,從而導致生成的摘要不連貫、不準確。因此,亟需一種裁判文書摘要生成方法,以確保裁判文書摘要的連貫性、準確性。
司法裁判文書是司法審判活動的最終載體,已有的司法裁判文書是輔助量刑決策和規范裁判尺度的重要依據。但現在已經公開的裁判文書數量已經多達1.2億篇,如何從眾多的裁判文書中獲取有用信息是一個亟待解決的問題。自動摘要技術能夠對長篇幅文本進行濃縮和提煉,用短篇幅的摘要表示冗長原文本,是解決信息過載問題的重要手段。
文本自動摘要技術按照摘要生成方式的不同可以分為抽取式摘要跟生成式摘要。抽取式方法是將文本摘要任務看作一個分類問題,判斷句子是否是摘要句,這種方法保持了與原文的忠誠度,但由于是直接從原文抽取拼接,所以生成的摘要可讀性、連續性較差。與抽取式方法相比,生成式方法更貼近人工摘要的過程,它利用深度學習模型學習大量的文本數據,對文本進行編碼、解碼,通過轉述、替換的方法生成抽取內容的摘要。生成式摘要不是從源文檔中直接抽取句子,而是通過生成新句子來替代原文句子。生成式方法雖然能夠生成新的句子,但是容易出現生成的句子與原文意識相悖的情況,忠實度得不到保證,而且對于長文本,生成式方法容易出現信息丟失的問題。司法裁判文書作為一種篇幅超長的文本,單一的抽取式或生成式方法應用在司法裁判文書中上述缺點會更加突出。因此,本發明提出一種將抽取式方法跟生成式方法結合起來的兩階段混合式自動摘要方法有效的解決了上述問題。
發明內容
針對現有技術的不足,本發明提供了一種針對司法裁判文書的兩階段混合式自動摘要方法。首先采用抽取方式形成關鍵句子合集,其次將句子合集作為生成方式的輸入,通過模型編碼、解碼生成文本摘要;本發明通過對整篇裁判文書的文本進行濃縮和提煉,減少摘要文本的篇幅,同時確保生成的摘要與原文意思的忠實度、可讀性以及連續性,減少了通過人工所生成摘要的文字數量和可信度低。
為了解決上述問題,提供如下技術方案:
一種針對司法裁判文書的兩階段混合式自動摘要方法,該方法包括以下幾個步驟:
1)對裁判文書中關鍵句子的相似度進行計算,并對關鍵句子的摘要模型進行編碼、分類,最后將摘要關鍵句抽取。
2)從裁判文書中抽取出句子組合成關鍵句子合集。
3)將步驟2)中的關鍵句子合集作為生成式模型的輸入,通過模型編碼、解碼生成文本摘要。
作為優選,步驟1)中關鍵句子的相似度進行計算包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湘潭大學;湖南海龍國際智能科技股份有限公司,未經湘潭大學;湖南海龍國際智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111494073.7/2.html,轉載請聲明來源鉆瓜專利網。





