[發明專利]一種網頁文本摘要生成方法和裝置在審
| 申請號: | 201410405758.3 | 申請日: | 2014-08-18 |
| 公開(公告)號: | CN104156452A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 楊樹強;薛竹君;尹洪;陳志坤;金松昌;宋錫寧;束陽雪;黃鴻杰;蔣千月;韓偉紅;周斌;李愛平 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 文本 摘要 生成 方法 裝置 | ||
技術領域
本申請涉及信息處理技術領域,更具體的說是涉及一種網頁文本摘要生成方法和裝置。
背景技術
網頁文本摘要是能夠反映網頁文本中心內容的簡潔連貫的短文,在網絡信息傳輸中,通過網頁文本摘要可以實現信息快速瀏覽,減少網絡搜索時間等優點,因此網頁文本摘要的自動生成是網絡信息傳輸過程中的重要技術。
現有技術中,一種網頁文本摘要的生成方法主要利用出現頻率等統計信息,確定出能夠代表網頁文本主題的句子作為摘要句,由摘要句組成網頁文本摘要。
但是現有的這種方式,僅利用出現頻率等統計信息得到的摘要句,并不能準確反映網頁文本主題。
發明內容
有鑒于此,本申請提供了一種網頁文本摘要生成方法和裝置,用以提高網頁文本摘要的準確度。
為實現上述目的,本申請提供如下技術方案:
一種網頁文本摘要生成方法,包括:
確定網頁文本中的關鍵詞條;
根據所述網頁文本中每一詞條的出現頻率,計算所述網頁文本中每一詞條的初始權重;
當所述網頁文本中的任一詞條為關鍵詞條時,增大所述關鍵詞條的初始權重,得到所述關鍵詞條的目標權重;
當所述網頁文本中的任一詞條為非關鍵詞條時,將所述非關鍵詞條的初始權重作為所述非關鍵詞條的目標權重;
利用所述網頁文本中每一詞條的目標權重,計算得到每一句子的句子權重;
根據所述句子權重,選擇摘要句子,并由所述摘要句子生成網頁文本摘要。
優選地,所述確定所述網頁文本中的關鍵詞條包括:
至少確定所述網頁文本中標題中的詞條、小標題中的詞條、超鏈接中的詞條、標簽中的詞條和/或出現頻率大于預設值的詞條作為關鍵詞條。
優選地,當所述網頁文本中的任一詞條為關鍵詞條時,增大所述關鍵詞條的初始權重,得到所述關鍵詞條的目標權重包括:
當所述網頁文本中的任一詞條為關鍵詞條時,將所述關鍵詞條的類型對應的權重比例因子與所述關鍵詞條的初始權重相乘,得到所述關鍵詞條的目標權重,所述關鍵詞條的權重比例因子為大于1的自然數。
優選地,所述根據所述網頁文本中每一詞條的出現頻率,計算所述網頁文本中每一詞條的初始權重包括:
根據所述網頁文本中每一詞條的出現頻率,按照第一權重計算公式,計算所述述網頁文本中每一詞條的初始權重;
所述第一權重計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410405758.3/2.html,轉載請聲明來源鉆瓜專利網。





