[發明專利]一種生成多文檔摘要的方法及裝置有效
| 申請號: | 201710245997.0 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN108733682B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李丕績;呂正東;李航 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生成 文檔 摘要 方法 裝置 | ||
1.一種生成多文檔摘要的方法,其特征在于,包括:
將多篇文檔劃分為n個句子,所述n為大于等于1的整數;
對每個所述句子生成所述句子的輸入詞袋向量,n個所述句子的輸入詞袋向量組成輸入詞袋向量空間;
基于變分自編碼模型對每個用所述輸入詞袋向量表示的所述句子進行無監督訓練,得到每個所述句子的編碼隱層向量和每個所述句子的潛在語義向量,n個所述句子的編碼隱層向量組成編碼隱層向量空間,n個所述句子的潛在語義向量組成潛在語義向量空間;
從所述潛在語義向量空間中采集m個所述潛在語義向量,所述m為大于等于1,且小于n的整數;
根據所述m個所述潛在語義向量,得到m個解碼隱層向量和m個輸出詞袋向量;
根據對齊機制更新所述m個解碼隱層向量和所述m個輸出詞袋向量;
根據所述輸入詞袋向量空間、所述編碼隱層向量空間、所述潛在語義向量空間、所述m個所述潛在語義向量、更新后的所述m個解碼隱層向量和更新后的所述m個輸出詞袋向量估計每個所述句子的重要度;
獲取每個所述句子的動詞短語和每個所述句子的名詞短語;
根據所述名詞短語所在的句子的重要度獲取所述名詞短語的重要度,根據所述動詞短語所在的句子的重要度獲取所述動詞短語的重要度;
獲取每個所述動詞短語的冗余度和每個所述名詞短語的冗余度;
基于整數線性規劃模型根據所有所述名詞短語的重要度和冗余度,以及所有所述動詞短語的重要度和冗余度,生成所述多篇文檔的摘要。
2.根據權利要求1所述的方法,其特征在于,所述基于變分自編碼模型對每個用所述輸入詞袋向量表示的所述句子進行無監督訓練,得到每個所述句子的編碼隱層向量和每個所述句子的潛在語義向量包括:
步驟1、將用所述輸入詞袋向量表示的句子x映射到第一編碼隱層,得到所述句子x的編碼隱層向量,所述句子x為所述n個句子中的任意一個所述句子;
步驟2、將所述句子x的編碼隱層向量映射到第二編碼隱層,得到均值向量和方差向量,所述均值向量和所述方差向量用來表示所述句子x的待確定潛在語義向量;
步驟3、根據所述均值向量和所述方差向量,得到所述句子x的待確定潛在語義向量;
步驟4、將所述句子x的待確定潛在語義向量映射到解碼隱層,得到所述句子x的解碼隱層向量;
步驟5、將所述句子x的解碼隱層向量映射到輸出層,得到所述句子x的輸出詞袋向量;
重復步驟1至步驟5,根據所述輸入詞袋向量、所述輸出詞袋向量、所述均值向量和所述方差向量獲取第一優化問題的目標函數的取值;
當所述第一優化問題的目標函數的取值為極值時,將所述待確定潛在語義向量確定為所述句子x的潛在語義向量。
3.根據權利要求1或2所述的方法,其特征在于,所述根據所述m個所述潛在語義向量,得到m個解碼隱層向量和m個輸出詞袋向量包括:
將所述m個所述潛在語義向量映射到解碼隱層,得到所述m個解碼隱層向量;
將所述m個解碼隱層向量映射到輸出層,得到所述m個輸出詞袋向量。
4.根據權利要求1或2所述的方法,其特征在于,所述根據對齊機制更新所述m個解碼隱層向量包括:
獲取所述m個解碼隱層向量中的每個解碼隱層向量和所述n個句子的編碼隱層向量的關系,得到第一對齊值;
將所述第一對齊值與所述n個句子的編碼隱層向量加權求和,得到第一上下文向量;
根據所述第一上下文向量更新所述m個解碼隱層向量。
5.根據權利要求3所述的方法,其特征在于,所述根據對齊機制更新所述m個解碼隱層向量包括:
獲取所述m個解碼隱層向量中的每個解碼隱層向量和所述n個句子的編碼隱層向量的關系,得到第一對齊值;
將所述第一對齊值與所述n個句子的編碼隱層向量加權求和,得到第一上下文向量;
根據所述第一上下文向量更新所述m個解碼隱層向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710245997.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法及裝置
- 下一篇:一種基于數據摸排探索事件線索的方法及裝置





