[發明專利]一種基于數據重構的文檔摘要提取方法有效
| 申請號: | 201210293118.9 | 申請日: | 2012-08-17 |
| 公開(公告)號: | CN102841940A | 公開(公告)日: | 2012-12-26 |
| 發明(設計)人: | 陳純;卜佳俊;何占盈;王燦;李平 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 文檔 摘要 提取 方法 | ||
1.一種基于數據重構的文檔摘要提取方法,該方法的特征在于:
1)從文檔數據庫中獲取文檔,作為待提取摘要的目標文檔;
2)針對每個目標文檔,提取該文檔中的每一個句子,作為該文檔摘要的備選句子庫;
3)統計所有關鍵詞在所有文檔中的權重信息,并以此將備選句子庫中的每個句子表示成一個向量;
4)利用數據重構算法,從備選句子庫中挑選出既包含文檔中心思想又包含最少冗余信息的最優摘要句子;
5)將挑選的句子提取出來,組成該目標文檔的摘要。
2.如權利要求1所述的基于數據重構的無障礙文檔摘要提取方法,其特征在于:步驟3)中所述的關鍵詞在所有文檔中的權重信息,并以此將備選句子庫中的每個句子表示成一個向量,具體步驟是:
1)若第i個關鍵詞在目標文檔的第j個句子中出現,其在所有文檔中的權重信息為它的TF-IDF值,即
2)若總共有k個關鍵詞,則將目標文檔的第j個句子表示成
3.如權利要求1所述的基于數據重構的無障礙文檔摘要提取方法,其特征在于:步驟4)中所述的數據重構算法具體做法是:
1)若目標文檔包含n個句子,用{vj|j=1,2,…,n}表示,其中要提取的目標摘要包含m(m<n)個句子,用{xl|l=1,2,…,m}表示,其中每個摘要句子都來自目標文檔的原句子,即
2)根據數據重構原理,最優摘要句子應該符合以下方程:
其中矩陣X的每一行是一個xl,每個aj是m維的向量,運算符號‖·‖2是求向量模的平方,Y是可調參數;
3)求解方程,得到最優矩陣解X,即挑選出了目標文檔中既包含文檔中心思想又包含最少冗余信息的m個最優摘要句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210293118.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防卡件的離子水清洗機
- 下一篇:一種用于疏通LED點膠機針頭的夾具
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





