[發明專利]一種網頁核心內容提取方法有效
| 申請號: | 201510413180.0 | 申請日: | 2015-07-14 |
| 公開(公告)號: | CN105320734B | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 陳勇;耿光剛 | 申請(專利權)人: | 中國互聯網絡信息中心 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 馮藝東 |
| 地址: | 100190 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 核心內容 提取 方法 | ||
1.一種網頁核心內容的提取方法,包括以下步驟:
1)根據網頁代碼中的html標簽,將網頁內容分割為多個段落;
2)統計每個段落的字符長度、相鄰段落的間隔距離和段落內部密集程度作為特征值;所述相鄰段落的間隔距離包括的種類有一段落與其上一段落的距離及該段落與其下一段落的距離;所述相鄰段落的間隔距離定義為段落之間的字符數+M,其中M的值根據一段落的前一段落的結束標簽與該段落的開始標簽確定;
3)根據所述特征值計算每個段落的核心特征值;根據網頁中各個段落的核心特征值分布情況,得到核心特征值最為集中的范圍,核心特征值在此閾值范圍內的段落即為網頁的核心段落,從而得到網頁的核心內容。
2.如權利要求1所述的網頁核心內容的提取方法,其特征在于,步驟1)中所述html標簽包括<p>、</p>、<div>、</div>、<span>、</span>、<div>、</div>、<br>、<br/>。
3.如權利要求1所述的網頁核心內容的提取方法,其特征在于,所述段落內部密集程度定義為段落中出現的中文和英文字符總和/Q,其中Q的值定義為段落中出現的中文和英文字符總和+段落中的標點符號數×Q1+html標簽1長度×Q1+html標簽2長度×Q2…+html標簽P長度×QP;Q1,Q2…QP為根據html標簽的類型確定。
4.如權利要求3所述的網頁核心內容的提取方法,其特征在于,一段落的核心特征值定義為段落的字符長度×段落內部密集程度/(該段落與其上一段落的距離+該段落與其下一段落的距離)。
5.如權利要求1所述的網頁核心內容的提取方法,其特征在于,步驟3)中根據所述特征值計算得到段落的核心特征值包括根據各個段落核心特征值的分布情況,選擇得到核心特征值在一定閾值范圍內核心段落,這些段落的組合為核心文本。
6.如權利要求5所述的網頁核心內容的提取方法,其特征在于,所述閾值范圍選取的依據為:選擇段落核心特征值最為集中的部分作為選擇核心段落的閾值范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國互聯網絡信息中心,未經中國互聯網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510413180.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息提取方法及裝置
- 下一篇:基于本體的語義查詢方法





