[發明專利]一種摘要形成方法及裝置有效

申請號：	201810563769.2	申請日：	2018-06-04
公開（公告）號：	CN109033066B	公開（公告）日：	2022-05-17
發明（設計）人：	魏靜如;張嫻	申請（專利權）人：	浪潮軟件股份有限公司
主分類號：	G06F40/211	分類號：	G06F40/211;G06F40/289;G06F40/30
代理公司：	濟南信達專利事務所有限公司 37100	代理人：	李世喆
地址：	250100 山東***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種摘要形成方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種摘要形成方法及裝置，該方法包括：拆分輸入文本以獲得其包括的各個句子、各句子包括的各個詞語；針對獲得的全部句子中的各句子均執行：針對全部句子中除當前句子外的各其他句子均執行：根據當前句子包括的詞語和當前其他句子包括的詞語，計算當前句子指向當前其他句子的相似度；根據計算出的各相似度，分別計算全部句子中的各句子的得分；利用全部句子中的若干第一句子來形成輸入文本的摘要，各第一句子的得分均不小于全部句子中任一非第一句子的得分。利用得分高的若干句子形成摘要，且任一句子的得分是基于各個其他句子而計算出的，故本方案可以基于輸入文本的上下文信息以形成摘要，故能夠提高所形成摘要的準確性。

技術領域

本發明涉及計算機技術領域，特別涉及一種摘要形成方法及裝置。

背景技術

當需要了解海量的輸入文本以從中獲取信息時，可以對各個輸入文本進行分析，以從中摘取出簡潔精煉重點內容而形成摘要。與了解海量輸入文本相比，用戶直接了解各輸入文本的摘要，可以提高其信息獲取的效率，節約資料閱讀或其他過程中不必要的時間。

目前，可以依靠詞頻來完成摘要的提取。比如，對于任一輸入文本，可以對該輸入文本進行分詞處理，并計算各個詞語的詞頻，并將包含高詞頻詞語的若干句子組合成該輸入文本的摘要。

但是，依靠詞頻來完成摘要的提取時，并沒有考慮輸入文本的上下文信息，故不能保證所形成摘要的準確性。

發明內容

本發明提供了一種摘要形成方法及裝置，可以基于輸入文本的上下文信息以形成摘要，故能夠提高所形成摘要的準確性。

為了達到上述目的，本發明是通過如下技術方案實現的：

一方面，本發明提供了一種摘要形成方法，包括：

S1：拆分輸入文本，以獲得所述輸入文本包括的每一個句子、每一個所述句子包括的每一個詞語；

S2：針對獲得的全部句子中的每一個句子均執行：

針對所述全部句子中除當前句子外的每一個其他句子均執行：根據當前句子包括的詞語和當前其他句子包括的詞語，計算所述當前句子指向所述當前其他句子的相似度；

S3：根據計算出的每一個所述相似度，分別計算所述全部句子中的每一個句子的得分；

S4：利用所述全部句子中的至少一個第一句子來形成所述輸入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一個第一句子外的任一其他句子的得分。

進一步地，在所述S1之后、所述S2之前，進一步包括：根據預設的至少一個無效詞語，將獲得的每一個句子中包括的每一個無效詞語刪除。

進一步地，在所述S2之后、所述S3之前，進一步包括：將計算出的每一個不大于預設相似度閾值的所述相似度刪除。

進一步地，所述計算所述當前句子指向所述當前其他句子的相似度，包括：利用公式一或公式二，計算所述當前句子指向所述當前其他句子的相似度；

所述公式一包括：

所述公式二包括：

其中，V_a為所述全部句子中的第a個句子，V_b為所述全部句子中的第b個句子，similarity(V_a,V_b)為所述第a個句子指向所述第b個句子的相似度，c為所述第a個句子包括的詞語個數，d為所述第b個句子包括的詞語個數，S_ae為所述第a個句子包括的第e個詞語的預設詞向量，1≤e≤c，S_bf為所述第b句子包括的第f個詞語的預設詞向量，1≤f≤d，上標T意為轉置。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件股份有限公司，未經浪潮軟件股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810563769.2/2.html，轉載請聲明來源鉆瓜專利網。