[發明專利]一種文本摘要生成方法和裝置有效
| 申請號: | 201711281994.9 | 申請日: | 2017-12-07 |
| 公開(公告)號: | CN108304445B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 李想 | 申請(專利權)人: | 新華網股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/211;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100031 北京市西城*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 摘要 生成 方法 裝置 | ||
本申請提供一種文本摘要生成方法和裝置。方法包括:將待提取摘要的文本文檔中的各個段落進行合并,得到目標文本文檔;按照預設的第一切分方法,對目標文本文檔進行切分,得到句子集合,所述句子集合包括多個句子;計算句子集合中兩兩句子之間的相似度;基于句子集合中兩兩句子之間的相似度,得到所述句子集合中每個句子相對于所述句子集合中的其他句子的相似度權重;按照相似度權重由大到小的順序對所述句子集合中的句子進行排序;基于排序的前N個句子,生成所述文本文檔的文本摘要。本申請在兼顧文本處理速度性能的同時,提高了文本摘要生成的準確性。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種文本摘要生成方法和裝置。
背景技術
摘要是能夠反映某一文本的中心內容的簡單連貫的短文,能夠幫助人們在閱讀海量文獻時縮短閱讀時間。
文本摘要生成技術作為有效得瀏覽和查閱文本的手段之一,得到了快速的發展。文本摘要生成技術是知識管理系統核心功能模塊之一,通過知識內容或者知識關鍵字生成知識摘要。
目前,文本摘要的生成方法幾乎完全依賴于關鍵字,通過采用例如定位文本關鍵字所在位置的段落的方法,將滿足一定字數閾值的段落確定為文本摘要,然而這種文本摘要生成方法無法避免文本中和整篇文本關系比較緊密的干擾句(比如不適合出現在摘要中的句子)的影響,導致生成的文本摘要的準確性較低。
發明內容
有鑒于此,本申請提供一種文本摘要生成方法,在兼顧文本處理速度性能的同時,提高文本摘要生成的準確性。技術方案如下:
基于本申請的一方面,本申請提供一種文本摘要生成方法,包括:
將待提取摘要的文本文檔中的各個段落進行合并,得到目標文本文檔;
按照預設的第一切分方法,對所述目標文本文檔進行切分,得到句子集合,所述句子集合包括多個句子;
計算所述句子集合中兩兩句子之間的相似度;
基于所述句子集合中兩兩句子之間的相似度,得到所述句子集合中每個句子相對于所述句子集合中的其他句子的相似度權重;
按照相似度權重由大到小的順序對所述句子集合中的句子進行排序;
基于排序的前N個句子,生成所述文本文檔的文本摘要,N為正整數。
可選地,所述基于排序的前N個句子,生成所述文本文檔的文本摘要之前,所述方法還包括:
針對所述句子集合中的句子,按照預設的第二切分方法,對所述句子集合中的句子進行切分,得到子句集合,所述子句集合包括至少一個子句,一個子句集合對應一個句子;
將所述句子集合中,子句的平均長度小于預設長度的句子存儲至第一資源池中;其中,當所述句子集合中的句子沒有被切分時,該沒有被切分的句子為所述子句;
將排序后的句子中,屬于所述第一資源池的句子濾除。
可選地,所述將所述句子集合中,子句的平均長度小于預設長度的句子存儲至第一資源池中之后,所述方法還包括:
基于所述句子集合中各個句子的排序,以及所述句子集合中兩兩句子之間的相似度,針對所述第一資源池中的第一句子,將在句子排序中,位于所述第一句子的后面,且與所述第一句子的相似度大于預設閾值的句子存儲至第二資源池中;其中所述第一句子為所述第一資源池中的任意一個句子;
將排序后的句子中,屬于所述第二資源池的句子濾除。
可選地,所述得到句子集合之后,所述方法還包括:
對所述句子集合中的句子進行分詞,去除無意義的詞語。
可選地,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華網股份有限公司,未經新華網股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711281994.9/2.html,轉載請聲明來源鉆瓜專利網。





