[發明專利]文本摘要抽取方法及系統有效
| 申請號: | 202011416522.1 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112507711B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 鄭茂盛;杜向陽 | 申請(專利權)人: | 南京擎盾信息科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06F18/23213;G06Q50/18 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 210000 江蘇省南京市雨花臺*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 摘要 抽取 方法 系統 | ||
本申請公開了一種文本摘要抽取方法及系統。所述方法包括:通過對待抽取裁判文書分割處理,得到若干個待處理句子;基于預訓練語言模型對各待處理句子進行向量表示處理,得到句子語義向量;對句子語義向量進行相似句過濾處理,得到過濾后句子;對各過濾后句子進行文書語義特征抽取,得到各文書語義特征,并基于預設文書語義特征權重原則,對各文書語義特征進行權重處理,得到各過濾后句子的權值;獲取權值達到權值閾值范圍的過濾后句子,得到各重要句子;對各重要句子進行通順度排序處理,得到文本摘要,實現自動抽取裁判文書(如民事案件裁判文書)的文本摘要,優化了摘要抽取過程,保證了摘要結果的關聯性,增強了文本摘要語義的通順性。
技術領域
本申請涉及文本摘要處理技術領域,具體而言,涉及一種文本摘要抽取方法及系統。
背景技術
文本摘要指用于盡可能簡明扼要地對文本進行概括總結,文本摘要在閱讀文本過程中發揮著重要的作用。隨著人工智能的發展,文本摘要也可以自動化形成,無需人工撰寫。然而,文本可根據不同的領域分為不同的種類,不同種類的文本具有不同的文本特征。例如,法律領域的文本包括法律判決文書;法律判決文書包括民事案件判決文書。判決文書的格式模塊等文本特征不同于其他文本。目前,尚未有完善易用的裁判文書摘要自動抽取方法,且傳統自動抽取文本摘要的方法,抽取的摘要存在部分內容相似或重復,且摘要語義上存在不通順的問題。
針對相關技術中傳統自動抽取文本摘要的方法,抽取的摘要存在部分內容相似或重復,且摘要語義上存在不通順的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種文本摘要抽取方法及系統,以解決傳統自動抽取文本摘要的方法,抽取的摘要存在部分內容相似或重復,且摘要語義上存在不通順的問題。
為了實現上述目的,第一方面,本申請提供了一種文本摘要抽取方法。
根據本申請的文本摘要抽取方法,包括以下步驟:
對待抽取裁判文書進行分割處理,得到若干個待處理句子;
基于預訓練語言模型對各待處理句子進行向量表示處理,得到句子語義向量;
對句子語義向量進行相似句過濾處理,得到過濾后句子;
對各過濾后句子進行文書語義特征抽取,得到各文書語義特征,并基于預設文書語義特征權重原則,對各文書語義特征進行權重處理,得到各對應過濾后句子的權值;
根據各過濾后句子的權值,獲取權值達到權值閾值范圍的過濾后句子,得到各重要句子;
對各重要句子進行通順度排序處理,根據處理的結果,得到對應待抽取裁判文書的文本摘要。
在其中一個實施例中,得到對應待抽取裁判文書的文本摘要的步驟之后包括:
基于預訓練語言模型,對文本摘要進行通順度檢測;
在文本摘要的通順度高于預設通順度閾值時,反饋對應待抽取裁判文書的文本摘要。
在其中一個實施例中,基于預訓練語言模型,對文本摘要進行通順度檢測的步驟之后包括:
在文本摘要的通順度低于預設通順度閾值時,獲取文本摘要的第一個句子作為當前句子;
在文本摘要除第一個句子之外的剩余句子中,獲取與當前句子之間的通順度最大的句子作為下一句子;
把當前句子與下一句子合并,并將合并后的句子作為新的當前句子,直至剩余句子為空時,將新的當前句子確認為文本摘要。
在其中一個實施例中,對待抽取裁判文書進行分割處理,得到若干個待處理句子的步驟包括:
基于裁判文書段落特征,對待抽取裁判文書進行分段處理,得到若干段待處理段落;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京擎盾信息科技有限公司,未經南京擎盾信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011416522.1/2.html,轉載請聲明來源鉆瓜專利網。





