[發明專利]一種生成多文檔摘要的方法和裝置有效
| 申請號: | 201410469449.2 | 申請日: | 2014-09-15 |
| 公開(公告)號: | CN105488021B | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 邴立東;林偉;張軼博 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生成 文檔 摘要 方法 裝置 | ||
1.一種生成多文檔摘要的方法,其特征在于,包括:
摘要生成裝置將多篇文檔的句子集合解構為短語池;
所述摘要生成裝置獲取所述短語池中各個短語的特征和關系,所述特征用于表示所述各短語自身的特性,所述關系用于表示所述各短語與其他短語之間的關系;
所述摘要生成裝置根據所述各個短語的特征和關系,從所述短語池選取滿足預置約束條件的短語集合作為摘要短語集合;
所述摘要生成裝置按照預置組合方式將所述摘要短語集合組合為摘要句子,生成所述多篇文檔的摘要;
所述摘要生成裝置獲取所述短語池中各個短語的特征和關系具體包括:
所述摘要生成裝置獲取所述短語池中各短語的重要度以及各短語之間的兼容度和相似度,所述重要度用于衡量短語所代表的概念或信息在表述文獻語義中體現的重要程度,所述兼容度用于衡量短語之間形成搭配出現在同一句子中的可能性,所述相似度用于衡量短語之間語義相似的程度;
所述摘要生成裝置根據所述各個短語的特征和關系,從所述短語池選取滿足預置約束條件的短語集合作為摘要短語集合具體包括:
所述摘要生成裝置應用求解規劃問題的方法,在最大程度滿足所述預置約束條件構成的情況下,從所述短語池中選取所述摘要短語集合,所述規劃問題由所述預置約束條件給出,所述預置約束條件包括對短語重要度的約束,對短語兼容度的約束以及對短語相似度的約束。
2.根據權利要求1所述的方法,其特征在于,
所述預置約束條件還包括對短語候選權重的約束;
所述方法還包括:
所述摘要生成裝置根據所述短語池中各個短語的重要度以及各個短語之間的兼容度和相似度,求解給定的目標函數的極值,獲取所述短語池中各個短語的所述候選權重,其中,所述目標函數由所述各個短語的重要度,以及各個短語之間的兼容度和相似度組合構成,所述目標函數用于描述組合的信息量和冗余度,當所述目標函數取極值時,信息量最大而冗余度最小。
3.根據權利要求1至2中任一項所述的方法,其特征在于,所述將多篇文檔的句子集合解構為短語池具體包括:
將所述多篇文檔的句子集合利用語義分析工具構建語法樹;
抽取所述語法樹上全部短語組成短語池。
4.根據權利要求1至2中任一項所述的方法,其特征在于,所述摘要生成裝置按照預置組合方式將所述摘要短語集合組合為摘要句子,生成所述多篇文檔的摘要具體包括:
所述摘要生成裝置按照所述摘要短語集合中各摘要短語在所述多篇文檔的句子中的順序,對所述摘要短語進行排列,得到摘要句子;
將所述摘要句子按照所述多篇文檔中動詞短語出現的最早時間進行排列,得到所述多篇文檔的摘要。
5.根據權利要求4所述的方法,其特征在于,所述將所述摘要句子按照所述多篇文檔中動詞短語出現的最早時間進行排列,得到所述多篇文檔的摘要的步驟之前還包括:
對包含多個動詞短語的摘要句子,在該摘要句子的各動詞短語間添加連詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410469449.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:城市污水源熱泵系統過流式換熱裝置
- 下一篇:加熱爐爐內攝像裝置的防滲漏結構





