[發明專利]一種文本摘要的生成方法及裝置在審
| 申請號: | 202111169246.8 | 申請日: | 2021-09-30 |
| 公開(公告)號: | CN113886568A | 公開(公告)日: | 2022-01-04 |
| 發明(設計)人: | 司馬華鵬;華冰濤;湯毅平;汪成;靳超超 | 申請(專利權)人: | 宿遷硅基智能科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/211;G06F40/216;G06K9/62 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 210012 江蘇省宿*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 摘要 生成 方法 裝置 | ||
1.一種文本摘要的生成方法,其特征在于,包括:
將目標文本劃分為多個分句;
構建句子關系網絡,所述句子關系網絡包括所述多個分句中的全部節點分句,以及每一個所述節點分句與相應的鄰接分句之間的對應關系,其中,所述節點分句對應至少一個句子相似度大于或者等于相似度閾值的所述鄰接分句;
基于所述句子關系網絡,獲取每一個所述節點分句對應的子關系網絡,所述子關系網絡包括所述節點分句以及所述節點分句的至少一個鄰接分句;
生成所述目標文本的文本摘要,所述文本摘要包括目標子關系網絡中的全部分句,所述目標子關系網絡是指與所述句子關系網絡之間具有最高文檔向量相似度的所述子關系網絡。
2.根據權利要求1所述的方法,其特征在于,在所述將目標文本劃分為多個分句之前還包括:
獲取待處理文本;
將所述待處理文本劃分為多個待處理分句;
獲取每個所述待處理分句中的第一文本和第二文本,其中,所述第一文本與所述待處理文本所屬的目標領域中的核心類別對應,所述第二文本與所述目標領域中的非核心類別對應;
根據每個所述待處理分句對應的分句向量,計算各所述待處理分句之間的句子相似度,所述待處理分句對應的分句向量由相應的所述第一文本和所述第二文本構成;
將所述多個待處理分句劃分為多個所述目標文本,每個所述目標文本包括多個目標分句,所述多個目標分句之間的句子相似度大于或者等于預設句子相似度閾值。
3.根據權利要求2所述的方法,其特征在于,在將所述多個待處理分句劃分為多個所述目標文本之后,還包括:
獲取各所述目標分句在所述待處理文本中的位置;
按照各所述目標分句在所述待處理文本中的位置,將所述目標文本中的各所述目標分句排序。
4.根據權利要求1所述的方法,其特征在于,所述構建句子關系網絡包括:
以每個所述分句作為中心分句,計算所述中心分句與所述多個分句中其它分句之間的句子相似度;
確定節點分句和所述節點分句的鄰接分句,所述節點分句是指具有鄰接分句的所述中心分句,所述鄰接分句是指與所述節點分句的句子相似度大于或者等于句子相似度閾值的所述其它分句;
建立各所述節點分句與所述鄰接分句之間的對應關系,得到所述句子關系網絡。
5.根據權利要求1所述的方法,其特征在于,所述獲取每一個所述節點分句對應的子關系網絡包括:
根據預設的文本摘要所包含的句子數量N,獲取每一個所述節點分句對應的全部子關系網絡,其中,每個所述子關系網絡包括所述節點分句和所述節點分句對應的N-1個所述鄰接分句,N≥1。
6.根據權利要求5所述的方法,其特征在于,所述生成所述目標文本的文本摘要包括:
獲取候選子關系網絡,所述候選子關系網絡是指中心度大于或者等于中心度閾值的所述子關系網絡;
生成所述文本摘要,所述文本摘要包括所述目標子關系網絡中的全部分句,所述目標子關系網絡是指與所述句子關系網絡之間具有最高文檔向量相似度的所述候選子關系網絡。
7.根據權利要求6所述的方法,其特征在于,計算所述子關系網絡的中心度的步驟包括:
計算各所述子關系網絡中每個所述分句對應的第一中心度,所述第一中心度根據所述分句的向前影響和向后影響計算獲得;
計算每個所述子關系網絡中各所述分句對應的中心度的加權平均值,得到每個所述子關系網絡的中心度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宿遷硅基智能科技有限公司,未經宿遷硅基智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111169246.8/1.html,轉載請聲明來源鉆瓜專利網。





