[發明專利]一種網頁文本摘要生成方法和裝置在審
| 申請號: | 201410405758.3 | 申請日: | 2014-08-18 |
| 公開(公告)號: | CN104156452A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 楊樹強;薛竹君;尹洪;陳志坤;金松昌;宋錫寧;束陽雪;黃鴻杰;蔣千月;韓偉紅;周斌;李愛平 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 文本 摘要 生成 方法 裝置 | ||
1.一種網頁文本摘要生成方法,其特征在于,包括:
確定網頁文本中的關鍵詞條;
根據所述網頁文本中每一詞條的出現頻率,計算所述網頁文本中每一詞條的初始權重;
當所述網頁文本中的任一詞條為關鍵詞條時,增大所述關鍵詞條的初始權重,得到所述關鍵詞條的目標權重;
當所述網頁文本中的任一詞條為非關鍵詞條時,將所述非關鍵詞條的初始權重作為所述非關鍵詞條的目標權重;
利用所述網頁文本中每一詞條的目標權重,計算得到每一句子的句子權重;
根據所述句子權重,選擇摘要句子,并由所述摘要句子生成網頁文本摘要。
2.根據權利要求1所述的方法,其特征在于,所述確定所述網頁文本中的關鍵詞條包括:
至少確定所述網頁文本中標題中的詞條、小標題中的詞條、超鏈接中的詞條、標簽中的詞條和/或出現頻率大于預設值的詞條作為關鍵詞條。
3.根據權利要求1或2所述的方法,其特征在于,當所述網頁文本中的任一詞條為關鍵詞條時,增大所述關鍵詞條的初始權重,得到所述關鍵詞條的目標權重包括:
當所述網頁文本中的任一詞條為關鍵詞條時,將所述關鍵詞條的類型對應的權重比例因子與所述關鍵詞條的初始權重相乘,得到所述關鍵詞條的目標權重,所述關鍵詞條的權重比例因子為大于1的自然數。
4.根據權利要求1或2所述的方法,其特征在于,所述根據所述網頁文本中每一詞條的出現頻率,計算所述網頁文本中每一詞條的初始權重包括:
根據所述網頁文本中每一詞條的出現頻率,按照第一權重計算公式,計算所述述網頁文本中每一詞條的初始權重;
所述第一權重計算公式為:
其中,表示詞條tk的初始權重,k=1、2、……n,n為網頁文本中的詞條數量;tfk表示詞條tk的在網頁文本中的出現次數;N為網頁文本中的段落數目;nk表示存在詞條tk的段落數量;N/nk表示詞條tk的段落密度;
則當所述網頁文本中的任一詞條為關鍵詞條時,增大所述關鍵詞條的初始權重,得到所述關鍵詞條的目標權重包括:
當所述網頁文本中的任一詞條為關鍵詞條時,按照第二權重計算公式,得到所述關鍵詞條的目標權重;
所述第二權重計算公式為:
其中,β表示關鍵詞條的權重比例因子,表示詞條tk的初始權重;
則所述利用所述網頁文本中每一詞條的目標權重,計算得到每一句子的;句子權重包括:
利用所述網頁文本中每一詞條的目標權重,按照第三權重計算公式,得到每一句子的句子權重;
所述第三權重計算公式為:
其中,s(i)為網頁文本中的第i個句子;ws(i)表示s(i)的權重;表示詞條tk的初始權重;Len(s(i))為句子s(i)中的詞條數量;α為結構比例因子;
f1表示句子s(i)中具有特殊格式的詞條的數量;
f2表示句子s(i)中的書簽詞語和超鏈接詞語的總數量;
f3表示句子s(i)位于網頁文本的段落的段首時取值為1,位于網頁文本中段落的段尾時取值為0;
f4表示句子s(i)包括指示性詞語時取值為1,否則取值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410405758.3/1.html,轉載請聲明來源鉆瓜專利網。





