[發明專利]一種文本摘要生成方法和裝置有效
| 申請號: | 201711281994.9 | 申請日: | 2017-12-07 |
| 公開(公告)號: | CN108304445B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 李想 | 申請(專利權)人: | 新華網股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/211;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100031 北京市西城*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 摘要 生成 方法 裝置 | ||
1.一種文本摘要生成方法,其特征在于,包括:
將待提取摘要的文本文檔中的各個段落進行合并,得到目標文本文檔;
按照預設的第一切分方法,對所述目標文本文檔進行切分,得到句子集合,所述句子集合包括多個句子;
計算所述句子集合中兩兩句子之間的相似度;
基于所述句子集合中兩兩句子之間的相似度,得到所述句子集合中每個句子相對于所述句子集合中的其他句子的相似度權重;
按照相似度權重由大到小的順序對所述句子集合中的句子進行排序;
基于排序的前N個句子,生成所述文本文檔的文本摘要,N為正整數;
所述基于排序的前N個句子,生成所述文本文檔的文本摘要之前,所述方法還包括:
針對所述句子集合中的句子,按照預設的第二切分方法,對所述句子集合中的句子進行切分,得到子句集合,所述子句集合包括至少一個子句,一個子句集合對應一個句子;
將所述句子集合中,子句的平均長度小于預設長度的句子存儲至第一資源池中;其中,當所述句子集合中的句子沒有被切分時,該沒有被切分的句子為所述子句;
將排序后的句子中,屬于所述第一資源池的句子濾除;
所述將所述句子集合中,子句的平均長度小于預設長度的句子存儲至第一資源池中之后,所述方法還包括:
基于所述句子集合中各個句子的排序,以及所述句子集合中兩兩句子之間的相似度,針對所述第一資源池中的第一句子,將在句子排序中,位于所述第一句子的后面,且與所述第一句子的相似度大于預設閾值的句子存儲至第二資源池中;其中所述第一句子為所述第一資源池中的任意一個句子;
將排序后的句子中,屬于所述第二資源池的句子濾除。
2.根據權利要求1所述的方法,其特征在于,所述得到句子集合之后,所述方法還包括:
對所述句子集合中的句子進行分詞,去除無意義的詞語。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
接收用戶輸入的目標詞語;
判斷所述目標詞語是否存在于排序的句子中;
如果不存在,所述基于排序的前N個句子,生成所述文本文檔的文本摘要包括:將排序的前N個句子作為摘要句,生成所述文本文檔的文本摘要;
如果存在,所述基于排序的前N個句子,生成所述文本文檔的文本摘要包括:將包括所述目標詞語的前M個句子,以及除所述前M個句子后余下的句子中的前N-M個句子作為摘要句,生成所述文本文檔的文本摘要,M為正整數。
4.一種文本摘要生成裝置,其特征在于,包括:
段落合并處理單元,用于將待提取摘要的文本文檔中的各個段落進行合并,得到目標文本文檔;
第一切分單元,用于按照預設的第一切分方法,對所述目標文本文檔進行切分,得到句子集合,所述句子集合包括多個句子;
相似度計算單元,用于計算所述句子集合中兩兩句子之間的相似度;
相似度權重獲取單元,用于基于所述句子集合中兩兩句子之間的相似度,得到所述句子集合中每個句子相對于所述句子集合中的其他句子的相似度權重;
排序單元,用于按照相似度權重由大到小的順序對所述句子集合中的句子進行排序;
文本摘要生成單元,用于基于排序的前N個句子,生成所述文本文檔的文本摘要,N為正整數;
第二切分單元,用于針對所述句子集合中的句子,按照預設的第二切分方法,對所述句子集合中的句子進行切分,得到子句集合,所述子句集合包括至少一個子句,一個子句集合對應一個句子;
第一處理單元,用于將所述句子集合中,子句的平均長度小于預設長度的句子存儲至第一資源池中;其中,當所述句子集合中的句子沒有被切分時,該沒有被切分的句子為所述子句;
第一濾除單元,用于將排序后的句子中,屬于所述第一資源池的句子濾除;
第二處理單元,用于基于所述句子集合中各個句子的排序,以及所述句子集合中兩兩句子之間的相似度,針對所述第一資源池中的第一句子,將在句子排序中,位于所述第一句子的后面,且與所述第一句子的相似度大于預設閾值的句子存儲至第二資源池中;其中所述第一句子為所述第一資源池中的任意一個句子;
第二濾除單元,用于將排序后的句子中,屬于所述第二資源池的句子濾除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華網股份有限公司,未經新華網股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711281994.9/1.html,轉載請聲明來源鉆瓜專利網。





