[發明專利]文本摘要抽取方法及系統有效
| 申請號: | 202011416522.1 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112507711B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 鄭茂盛;杜向陽 | 申請(專利權)人: | 南京擎盾信息科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/30;G06F18/23213;G06Q50/18 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 210000 江蘇省南京市雨花臺*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 摘要 抽取 方法 系統 | ||
1.一種文本摘要抽取方法,其特征在于,包括以下步驟:
對待抽取裁判文書進行分割處理,得到若干個待處理句子;
基于預訓練語言模型對各所述待處理句子進行向量表示處理,得到句子語義向量;
對所述句子語義向量進行相似句過濾處理,得到過濾后句子;
對各所述過濾后句子進行文書語義特征抽取,得到各文書語義特征,并基于預設文書語義特征權重原則,對各所述文書語義特征進行權重處理,得到各對應所述過濾后句子的權值;
根據各所述過濾后句子的權值,獲取所述權值達到權值閾值范圍的所述過濾后句子,得到各重要句子;
對各所述重要句子進行通順度排序處理,根據處理的結果,得到對應所述待抽取裁判文書的文本摘要;
所述文書語義特征包括連接詞語義特征和裁判文書特征;
所述基于預設文書語義特征權重原則,對各所述文書語義特征進行權重處理,得到各對應所述文書語義特征的所述過濾后句子的權值的步驟包括:
若所述文書語義特征為連接詞語義特征,則將連接詞的重復頻率作為相應所述文書語義特征的權重;
若所述文書語義特征為裁判文書特征,則將歷史原被告判決傾向權重作為相應所述文書語義特征的權重。
2.如權利要求1所述的文本摘要抽取方法,其特征在于,所述得到對應所述待抽取裁判文書的文本摘要的步驟之后包括:
基于預訓練語言模型,對所述文本摘要進行通順度檢測;
在所述文本摘要的通順度高于預設通順度閾值時,反饋對應所述待抽取裁判文書的所述文本摘要。
3.如權利要求2所述的文本摘要抽取方法,其特征在于,所述基于預訓練語言模型,對所述文本摘要進行通順度檢測的步驟之后包括:
在所述文本摘要的通順度低于預設通順度閾值時,獲取所述文本摘要的第一個句子作為當前句子;
在所述文本摘要除第一個句子之外的剩余句子中,獲取與所述當前句子之間的通順度最大的句子作為下一句子;
把所述當前句子與所述下一句子合并,并將合并后的句子作為新的當前句子,直至所述剩余句子為空時,將所述新的當前句子確認為所述文本摘要。
4.如權利要求1所述的文本摘要抽取方法,其特征在于,所述對待抽取裁判文書進行分割處理,得到若干個待處理句子的步驟包括:
基于裁判文書段落特征,對所述待抽取裁判文書進行分段處理,得到若干段待處理段落;
基于標點符號特征,依次對各個所述待處理段落進行分句處理,得到各所述待處理句子。
5.如權利要求1所述的文本摘要抽取方法,其特征在于,所述基于預訓練語言模型對各所述待處理句子進行向量表示處理,得到句子語義向量的步驟包括:
基于BERT預訓練模型,對各所述待處理句子進行向量表示處理,得到句子語義向量。
6.如權利要求1所述的文本摘要抽取方法,其特征在于,所述對所述句子語義向量進行相似句過濾處理,得到若干過濾后句子的步驟包括:
基于聚類算法對所述句子語義向量進行聚類處理,得到各聚類后句子集合;
依次對各所述聚類后句子集合中的聚類中心句子進行句子語義補充處理,得到各所述過濾后句子;所述句子語義為對法律文本實體識別得到。
7.如權利要求6所述的文本摘要抽取方法,其特征在于,所述基于聚類算法對所述句子語義向量進行聚類處理,得到各聚類后句子集合的步驟包括:
基于kmeans聚類算法對所述句子語義向量進行聚類處理,得到各所述聚類后句子集合;其中,聚類的類別數以所述句子語義向量的總句子數量的五分之一為基準。
8.如權利要求1所述的文本摘要抽取方法,其特征在于,所述根據各所述過濾后句子的權值,獲取所述權值達到權值閾值范圍的所述過濾后句子,得到各重要句子的步驟包括:
基于textrank算法和通順度模型,對各所述過濾后句子的權值進行處理;
根據處理的結果,獲取所述權值達到權值閾值范圍的所述過濾后句子,并將所述權值達到權值閾值范圍的所述過濾后句子作為所述重要句子。
9.一種文本摘要抽取系統,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至8中任一項所述文本摘要抽取方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京擎盾信息科技有限公司,未經南京擎盾信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011416522.1/1.html,轉載請聲明來源鉆瓜專利網。





