[發明專利]一種提取網頁內容的實現方法有效
| 申請號: | 201210078159.6 | 申請日: | 2012-03-22 |
| 公開(公告)號: | CN102663023A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 劉金玉;田寧;劉崟;譚磊 | 申請(專利權)人: | 浙江盤石信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;王利強 |
| 地址: | 310011 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 網頁 內容 實現 方法 | ||
1.一種提取網頁內容的實現方法,其特征在于:所述實現方法包括以下步驟:
步驟S110,對整個網頁采用DOM樹進行分割處理,以將網頁中相關聯的內容分割為至少一個布局塊;
步驟S120,對網頁類型進行判斷,根據統計的根節點的鏈接總長度α、文本總長度β、鏈接總個數γ,定義鏈接密度為設定R是鏈接密度的閾值,T是鏈接總個數的閾值,如果當前的布局塊的鏈接密度和鏈接總個數均大于閾值,則判定為導航頁;
步驟S130,對所述布局塊進行塊屬性的判斷,如果存在主題塊,根據鏈接密度、標點符號個數判斷是否為主題頁;如果不存在主題塊,根據列表塊的個數進行判斷,若小于閾值L,對應網頁就是主題頁,否則不是;
步驟S140,根據主題塊或列表塊得到主題頁,并提取所需的主題頁信息。
2.如權利要求1所述的一種提取網頁內容的實現方法,其特征在于:所述步驟S110中,網頁進行分割處理的流程為:
步驟S210,將輸入的網頁進行預處理:首先將網頁解析為文檔對象模型樹,對模型樹進行處理,將注釋節點和空格文本節點刪除;
步驟S220,構建新的DOM樹,對DOM樹中節點定義所需要的語義屬性:鏈接個數、鏈接長度、文本長度和無關詞長度,并將標簽為table的節點改為div;
步驟S230,統計文檔模型樹中每個節點的語義信息,所述語義信息包括鏈接總個數、鏈接長度、文本長度和無關詞長度,以及每個節點的視覺屬性,所述視覺屬性包括背景顏色和字體的大小、粗細、顏色,為后面的分塊和信息提取作準備;
步驟S240,首先構建只包含div節點的DIV樹,根據設定的閾值及判定規則,利用節點統計的語義屬性進行分塊,判斷的順序是由下而上。
3.如權利要求1或2所述的一種提取網頁內容的實現方法,其特征在于:所述步驟S210的網頁預處理過程為:
步驟S310,將網頁解析成文檔對象模型DOM樹:依次讀入網頁的內容,識別每個HTML標簽的名稱、類別、參數和內容,以樹狀結構進行存儲,從而形成網頁的DOM樹;
步驟S320,清理DOM樹中的無用節點,所述無用節點是指與主題信息抽取無關的節點,包括腳本、樣式控制信息和注釋。
4.如權利要求2所述的一種提取網頁內容的實現方法,其特征在于:所述步驟S240的網頁分塊過程為:
步驟S410,根據DIV樹中div節點的語義屬性對網頁進行分塊;
步驟S420,對步驟S410的分塊結果根據視覺屬性判斷是否合理;視覺屬性是步驟S230保存的節點的背景顏色和節點中包含字體的顏色、大小、粗細,對應設置權值分別為α、β、γ、ω;定義一個權值函數f(α,β,γ,ω)來判斷當前塊是否再可分;當函數值大于設定的閾值R時,說明當前塊可再分,否則就不再可分;
接下來,再利用以下判定規則判斷相鄰分塊間內容上的差異度,具體規則如下:
(1)相鄰兩塊的距離越遠,差異度越大,設置權值就越大;
(2)相鄰兩塊的背景色不同,差異度越大,設置權值就越大;
(3)對于上下相鄰的兩塊,如果塊中字體的大小特征差異性越大,則權值越大;如果上方分塊中的字體大小要小于下方分塊中的字體,則權值較大,字體大小差異越大,權值越大;但是當兩側分塊中的內容較為相似時,則設置權值就較小;
通過上述規則,如果相鄰兩塊的權值小于所設定的閾值T時就合并,否則就不合并。
5.如權利要求3所述的一種提取網頁內容的實現方法,其特征在于:所述步驟S310中,采用基于改進的Firefox網頁解析算法的網頁樹結構分析算法來建立DOM樹結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江盤石信息技術有限公司,未經浙江盤石信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210078159.6/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





