[發明專利]一種網頁分塊提取分塊節點的方法在審
| 申請號: | 201710359495.0 | 申請日: | 2017-05-19 |
| 公開(公告)號: | CN108509472A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 姚國平 | 申請(專利權)人: | 蘇州純青智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華識知識產權代理有限公司 11530 | 代理人: | 陳敏 |
| 地址: | 215400 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分塊 網頁分塊 兄弟節點 標簽 網頁 父節點信息 最底層節點 布局標簽 視覺屬性 文本節點 噪音信息 正文信息 父節點 含量比 內容塊 有效地 取下 統計 保證 合并 重復 規劃 | ||
1.一種網頁分塊提取分塊節點的方法,其特征在于:包括以下步驟:
⑴將網頁中以內容塊為個體,規劃出若干個標簽;
⑵根據標簽數量來選擇網頁的布局標簽,找到對應該標簽的最底層節點,放入節點列表中,判斷列表中的節點是否處理完,處理完,則分塊結束;
⑶步驟⑵列表中節點沒有處理完,則取下一個Node,合并Node下所有的文本節點,統計Node的信息含量,并提取視覺屬性,判斷Node是不是根節點,以及父節點是否被考察過,如若:Node是根節點,父節點被考察過,則Node可成為分塊節點;
⑷步驟⑶中,若Node不是根節點,父節點沒被考察過,則統計父節點和兄弟節點的信息含量,且判斷Node與其所有兄弟節點信息含量之和與父節點信息含量比是否大于T,若大于T,Node可以成為分塊節點;
⑸步驟⑷中,若Node與其所有兄弟節點信息含量之和與父節點信息含量比不大于T,則將父節點加入列表中,并刪除列表中Node及其所有兄弟節點,然后重復上述步驟。
2.根據權利要求1所述一種網頁分塊提取分塊節點的方法,其特征在于:所述父節點為Node的上一層節點。
3.根據權利要求1所述一種網頁分塊提取分塊節點的方法,其特征在于:所述步驟ode與其所有兄弟節點信息含量之和與父節點信息含量比計算公式如下:
其中:將被考察節點的信息含量記為N,該節點的父節點的信息含量記為F,計算該節點所有兄弟節點的信息含量,記為SI,其中i為自然數,0≤i≤n,n為兄弟節點個數,被考察節點的信息含量加上該節點的所有兄弟節點的信息含量與其父節點的信息含量的比值為R。
4.根據權利要求1所述一種網頁分塊提取分塊節點的方法,其特征在于:所述T的值為0.6~0.7之間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州純青智能科技有限公司,未經蘇州純青智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710359495.0/1.html,轉載請聲明來源鉆瓜專利網。





