[發明專利]一種提取網頁正文的方法和裝置有效
| 申請號: | 200810225720.2 | 申請日: | 2008-11-07 |
| 公開(公告)號: | CN101408898A | 公開(公告)日: | 2009-04-15 |
| 發明(設計)人: | 張海濤 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 | 代理人: | 申 健 |
| 地址: | 100871北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 網頁 正文 方法 裝置 | ||
技術領域
本發明涉及網絡技術領域,尤其涉及一種提取網頁正文的方法和裝置。
背景技術
隨著市場競爭的日趨激烈,各大網站的網頁內容如果只靠本站網頁內容,顯得內容單調,無法提高點擊率,也無法提高本站的知名度。為提高點擊率,則必須使網頁內容多樣化,增加更多的熱門話題等,網頁內容轉載由此而產生。人工轉載,更新速度慢,效率低,還要耗費很大的人力和財力,由此爬蟲軟件就成為網頁內容轉載的主導軟件,以快速、準確提取網頁正文。
目前,爬蟲軟件提取網頁正文的方法都是正則提取法,包括:根據每個網頁的模板預先設定一些規則;然后,根據這些規則提取網頁正文。
發明人發現現有技術中存在如下問題:
正則提取法需要花費大量精力去維護各大網站網頁的模板提取規則,由于互聯網上的網站網頁模板太多,網頁模板更新比較頻繁,所以用戶無法及時、準確地維護這些模板規則,也就無法及時、準確地提取這些網頁正文。
發明內容
本發明提供一種提取網頁正文的方法和裝置,以快速、準確地提取網頁中的正文。
為達到上述目的,本發明采用如下技術方案:
一種提取網頁正文的方法,包括:
獲取頁面段的開始標簽和結束標簽;
根據所述開始標簽和結束標簽確定所述頁面段的開始位置和結束位置;
根據所述頁面段的開始位置和結束位置之間各種形式內容的權值計算所述頁面段的權值;
將網頁中權值最大的頁面段提取為網頁正文。
一種提取網頁正文的裝置,包括:
獲取模塊,用于獲取頁面段的開始標簽和結束標簽;
分段模塊,用于根據所述獲取模塊獲取的開始標簽和結束標簽確定所述頁面段的開始位置和結束位置;
計算模塊,用于根據所述頁面段的開始位置和結束位置之間各種形式內容的權值計算所述頁面段的權值;
提取模塊,用于將所述計算模塊計算得出的所述網頁中權值最大的頁面段提取為網頁正文。
本發明提供的提取網頁正文的方法和裝置,通過計算所述頁面段的權值,將權值最大的頁面段提取為網頁正文,而頁面段的權值反映了該頁面段內容的熱門度,因此,根據權值提取網頁正文,可以快速、準確地轉載熱門的內容,且滿足內容多樣化的要求,從而提高網站的點擊率和知名度。
附圖說明
圖1為本發明提取網頁正文的方法流程圖;
圖2為本發明提取網頁正文的裝置結構圖。
具體實施方式
本發明提供一種提取網頁正文的方法:將網頁劃分成若干頁面段,根據頁面段中的無鏈接字符、鏈接字符、圖片、附件、廣告等內容計算各個頁面段的權值,該頁面段內容的熱門度越高,則權值越大;然后,將權值最大的頁面段提取為網頁正文;從而轉載該網頁內容后,用戶的點擊率越高,有利于提高本網站的知名度。采用本發明提供的提取網頁正文的方法,即使網頁的模板發生變化,也能快速、準確地提取熱門的網頁正文、維護網頁內容的多樣性。
下面將結合本發明中的附圖,對本發明中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
為快速、準確地提取網頁中的正文,本發明提供一種提取網頁正文的方法。下面結合附圖對本發明提取網頁正文的方法進行詳細描述。
在提取網頁正文之前,可以預先設置用戶點擊率高和/或內容更新頻率快的網頁,優先從該網頁中提取網頁正文。如圖1所示,本發明提供的提取網頁正文的方法包括:
S101,獲取頁面段的開始標簽和結束標簽。
一個網頁包括一個或多個頁面段,根據頁面段的開始標簽和結束標簽可以確定網頁相應的的頁面段。獲取頁面段的開始標簽和結束標簽包括:查找標簽,判斷所述標簽是否是開始標簽或結束標簽;如果是,則進一步判斷所述開始標簽或結束標簽是否是所述頁面段的開始標簽或結束標簽;獲取所述頁面段的開始標簽和結束標簽。
其中,標簽可以是HTML(Hypertext?Markup?Language,超文本標示語言)標簽或XHTML(The?Extensible?HyperText?Markup?Language,可擴展超文本標示語言)標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810225720.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:重整裝置的停機方法
- 下一篇:三重分離的數據管理方法





