[發明專利]摘要生成方法、裝置、計算機可讀存儲介質及電子設備在審
| 申請號: | 202110057066.4 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112732901A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 史文麗;譚松波 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/33;G06F40/289;G06F40/151 |
| 代理公司: | 北京樂知新創知識產權代理事務所(普通合伙) 11734 | 代理人: | 周偉 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 生成 方法 裝置 計算機 可讀 存儲 介質 電子設備 | ||
本發明公開了一種摘要生成方法、裝置、計算機可讀存儲介質及電子設備,首先對待處理文檔的文檔數據中每一原始句子進行分詞,得到至少一個分詞結果,并根據至少一個分詞結果,確定原始句子中每一分詞的重要屬性。進一步的,根據原始句子中每一分詞的重要屬性,判斷每一原始句子的概括屬性。從而在原始句子概括性強時,保留原始句子,在原始句子概括性弱時,首先對原始句子進行概括生成,以替換相應的原始句子。采用這種半生成式的摘要生成方法,首先得到包括多個概括性較強的候選句子的候選句子集合,并從中確定摘要目標句子,進一步根據目標摘要句子生成最終的文檔摘要。有效提高文檔摘要總結性的同時,顯著提升了摘要的優雅性。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種摘要生成方法、裝置、計算機可讀存儲介質及電子設備。
背景技術
摘要的生成能夠使得用戶快速的了解文章的核心,大大節省時間成本,目前生成摘要的算法主要以抽取式算法和生成式算法為主。抽取式算法主要為以句子得分top進行排序,得到文章摘要。生成式算法是在理解原文章的基礎上,針對文章全文進行總結性描述,得到文章摘要。單獨采用抽取式或單獨采用生成式生成文章摘要均具有一定的弊端。
發明內容
本發明實施例提供一種摘要生成方法、裝置、計算機可讀存儲介質及電子設備。
根據本發明第一方面,提供了一種摘要生成方法,所述方法包括:獲取待處理文檔的文檔數據;對所述文檔數據的每一原始句子進行分詞,得到至少一個分詞結果;根據所述至少一個分詞結果,確定所述原始句子中每一分詞的重要屬性;根據所述原始句子中每一分詞的重要屬性,判斷所述每一原始句子的概括屬性,所述概括屬性用于示出所述原始句子的概括性強弱;根據所述每一原始句子的概括屬性,對所述待處理文檔進行摘要生成。
根據本發明一實施方式,所述根據所述至少一個分詞結果,確定所述原始句子中每一分詞的重要屬性,包括:根據所述至少一個分詞結果,確定所述原始句子的每一分詞的詞頻逆文本頻率指數tfidf值,所述詞頻逆文本頻率指數tfidf值用于示出所述分詞的重要屬性。
根據本發明一實施方式,所述根據所述原始句子中每一分詞的重要屬性,判斷所述每一原始句子的概括屬性,包括:根據所述原始句子中每一分詞的tfidf值,確定所述原始句子的概括屬性的第一參數;在所述第一參數小于所述第一設定閾值時,判定所述原始句子的概括屬性示出所述原始句子的概括性弱。
根據本發明一實施方式,所述根據所述原始句子中每一分詞的重要屬性,判斷所述每一原始句子的概括屬性,還包括:在所述第一參數大于或等于所述第一設定閾值且小于所述第二設定閾值時,獲取所述原始句子的句長;在所述句長大于設定句長時,判定所述原始句子的概括屬性示出所述原始句子的概括性弱;其中,所述第二設定閾值大于所述第一設定閾值。
根據本發明一實施方式,所述根據所述每一原始句子的概括屬性,對所述待處理文檔進行摘要生成,包括:根據所述每一原始句子的概括屬性,確定所述待處理文檔的候選句子集合;從所述候選句子集合中確定摘要目標句子;根據所述摘要目標句子,生成所述待處理文檔的摘要。
根據本發明一實施方式,所述根據所述每一原始句子的概括屬性,確定所述待處理文檔的候選句子集合,包括:在所述概括屬性示出相應的所述原始句子的概括性弱的情況下,對相應的所述原始句子進行概括生成,得到替換句子,替換相應的原始句子;在所述概括屬性示出相應的所述原始句子的概括性強的情況下,則保留相應的原始句子;將所述替換句子和保留的原始句子組成候選句子集合。
根據本發明一實施方式,在所述對所述文檔數據的每一原始句子進行分詞之前,所述方法還包括:去除所述文檔數據中的非法字符;根據設定的分隔符,對所述文檔數據進行分句,得到多個所述原始句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110057066.4/2.html,轉載請聲明來源鉆瓜專利網。





