[發明專利]一種生成多文檔摘要的方法及裝置有效
| 申請號: | 201710245997.0 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN108733682B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李丕績;呂正東;李航 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生成 文檔 摘要 方法 裝置 | ||
本申請實施例公開了一種生成多文檔摘要的方法及裝置,涉及數據處理領域,解決了現有的自動多文檔摘要技術生成摘要的性能較差的問題。具體方案為:將多篇文檔劃分為n個句子,生成輸入詞袋向量,對每個用輸入詞袋向量表示的句子進行無監督訓練,得到每個句子的編碼隱層向量和每個句子的潛在語義向量,采集m個潛在語義向量,根據m個潛在語義向量,得到m個解碼隱層向量和m個輸出詞袋向量,進行更新,估計每個句子的重要度,獲取每個句子的動詞短語的重要度和冗余度,以及每個句子的名詞短語的重要度和冗余度,根據所有名詞短語的重要度和冗余度,以及所有動詞短語的重要度和冗余度,生成多篇文檔的摘要。本申請實施例用于生成多文檔摘要的過程。
技術領域
本申請實施例涉及數據處理領域,尤其涉及一種生成多文檔摘要的方法及裝置。
背景技術
在信息爆炸時代中,人們面對海量信息,越來越迫切需要迅速、有效的信息處理手段。作為資訊的獲取渠道之一,新聞閱讀占據了人們生活中相當部分時間。而新聞的海量性、冗余性給人們的閱讀帶來很大不便。多文檔摘要(Multi-Document Summarization,MDS)技術是指對于一個主題的多篇文檔,自動生成有字數限制的簡短的摘要,能夠最大限度描述主題的主要內容,供用戶閱讀。從而提高信息閱讀、資訊獲取的效率。
從摘要產生方法來說可以分為以下三種。生成式摘要是一種能夠模擬人類書寫摘要的過程,系統自動生成摘要中的句子,由于該方法依賴自然語言理解和自然語言生成等技術,在理解和生成技術都不太理想的情況下,該方法的難度也較大。抽取式摘要是直接從原文中選擇最重要的句子來組成摘要,并且有一定的機制保證抽取出來的句子在語義層面沒有重復,確保重要性和覆蓋度,然而,噪聲較多。壓縮式摘要,即在抽取式摘要的基礎上,在句子完整性等約束下,將句子中的噪聲或冗余信息刪除,只保留重要的信息,組成摘要,然而,可能會導致句子不通順。因此,現有的自動多文檔摘要技術均不能很好地滿足用戶的需求,生成的摘要的性能較差。
發明內容
本申請實施例提供一種生成多文檔摘要的方法及裝置,解決了現有的自動多文檔摘要技術生成摘要的性能較差的問題。
為達到上述目的,本申請實施例采用如下技術方案:
本申請實施例的第一方面,提供一種生成多文檔摘要的方法,包括:
首先,將多篇文檔劃分為n個句子,對每個句子生成句子的輸入詞袋向量,n個句子的輸入詞袋向量組成輸入詞袋向量空間,然后,基于變分自編碼(Variational Auto-Encoder,VAE)模型對每個用輸入詞袋向量表示的句子進行無監督訓練,得到每個句子的編碼隱層向量和每個句子的潛在語義向量,n個句子的編碼隱層向量組成編碼隱層向量空間,n個句子的潛在語義向量組成潛在語義向量空間,再從潛在語義向量空間中采集m個潛在語義向量,根據m個潛在語義向量,得到m個解碼隱層向量和m個輸出詞袋向量,根據對齊機制更新m個解碼隱層向量和m個輸出詞袋向量,根據輸入詞袋向量空間、編碼隱層向量空間、潛在語義向量空間、m個潛在語義向量、更新后的m個解碼隱層向量和更新后的m個輸出詞袋向量估計每個句子的重要度,最后,獲取每個句子的動詞短語和每個句子的名詞短語,根據名詞短語所在的句子的重要度獲取該名詞短語的重要度,根據動詞短語所在的句子的重要度獲取該動詞短語的重要度,獲取每個動詞短語的冗余度和每個名詞短語的冗余度,基于整數線性規劃模型根據所有名詞短語的重要度和冗余度,以及所有動詞短語的重要度和冗余度,生成多篇文檔的摘要,其中,n為大于等于1的整數,m為大于等于1,且小于n的整數。
本申請實施例提供的生成多文檔摘要的方法,基于變分自編碼模型對每個用輸入詞袋向量表示的句子進行無監督訓練,生成句子的潛在語義向量,來提升句子的度量效果,同時,根據潛在語義向量得到解碼隱層向量和輸出詞袋向量,再根據潛在語義向量、解碼隱層向量和輸出詞袋向量分別重建各自的潛在語義向量空間、編碼隱層向量空間和輸入詞袋向量空間來估計句子的重要度,即聯合考慮多語義空間估計句子的重要度生成多篇文檔的摘要。從而,通過變分自編碼模型和聯合多語義空間的句子重要性估計模型生成多篇文檔的摘要,極大地提升了摘要的性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710245997.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法及裝置
- 下一篇:一種基于數據摸排探索事件線索的方法及裝置





