[發(fā)明專利]基于DOM節(jié)點文本密度的網(wǎng)頁核心塊確定方法無效
| 申請?zhí)枺?/td> | 201110096132.5 | 申請日: | 2011-04-18 |
| 公開(公告)號: | CN102184189A | 公開(公告)日: | 2011-09-14 |
| 發(fā)明(設計)人: | 孫飛;宋丹丹;廖樂健;王曉華 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dom 節(jié)點 文本 密度 網(wǎng)頁 核心 確定 方法 | ||
1.一種基于DOM節(jié)點文本密度的網(wǎng)頁核心塊確定方法,包括以下步驟:
步驟一、解析HTML網(wǎng)頁,生成DOM樹,使每一個HTML標簽對應于DOM樹中的一個節(jié)點,網(wǎng)頁中的文字內(nèi)容則是DOM樹的葉子節(jié)點;
步驟二、為每個節(jié)點添加4個統(tǒng)計信息:
(1)Chars:節(jié)點所包含的所有文本字符的個數(shù);
(2)Tags:節(jié)點所包含的所有標簽的個數(shù);
(3)LinkChars:節(jié)點所包含的所有超鏈接文本字符個數(shù);
(4)LinkTags:節(jié)點所包含的所有超鏈接個數(shù);
對于每一個節(jié)點,定義其文本密度如下:
若i是網(wǎng)頁中的一個標簽,即i對應于DOM樹中的一個節(jié)點,則標簽i的文本密度為:
其中,Ci表示標簽i對應的Chars,Ti表示標簽i對應的Tags,LCi表示標簽i對應的LinkChars,表示標簽i所含的所有非超鏈接字符的個數(shù)即Chars與LinkChars的差值;LTi表示標簽i對應的LinkTags,LCb表示<body>標簽對應的LinkChars;Cb表示<body>標簽對應的Chars;
步驟三、根據(jù)DOM樹中節(jié)點的文本密度確定網(wǎng)頁核心塊。
2.根據(jù)權利要求1所述的一種基于DOM節(jié)點文本密度的網(wǎng)頁核心塊確定方法,其特征在于,在步驟一中,以<body>為起始標簽。
3.根據(jù)權利要求1或2所述的一種基于DOM節(jié)點文本密度的網(wǎng)頁核心塊確定方法,其特征在于,利用節(jié)點文本密度值的高低作為是否是核心塊的判斷依據(jù),根據(jù)對文本密度值的統(tǒng)計定義一個閾值,如果其高于閾值,則認為為核心塊;反之,則認為是噪聲數(shù)據(jù)。
4.根據(jù)權利要求3所述的一種基于DOM節(jié)點文本密度的網(wǎng)頁核心塊確定方法,其特征在于,將<body>的文本密度作為閾值來區(qū)分核心塊和噪聲數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經(jīng)北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110096132.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:雙缸風冷中型超靜音汽油發(fā)電機組
- 下一篇:可以電加熱的陶器、瓷器
- 一種用于網(wǎng)頁測試的測試目標處理方法和裝置
- 一種網(wǎng)頁內(nèi)容提取方法和設備
- 一種渲染和增量更新網(wǎng)頁的方法
- 一種基于虛擬DOM的前端元素維護方法
- 一種數(shù)據(jù)驅(qū)動的頁面更新方法和裝置
- 加載DOM節(jié)點數(shù)據(jù)的方法、裝置、計算機設備及存儲介質(zhì)
- 一種DOM沙盒環(huán)境的創(chuàng)建方法、裝置、介質(zhì)和電子設備
- 實現(xiàn)水印的方法、裝置、設備及計算機可讀介質(zhì)
- 網(wǎng)頁數(shù)據(jù)的監(jiān)控方法、裝置、終端設備及存儲介質(zhì)
- 表格數(shù)據(jù)處理方法、裝置、電子設備和存儲介質(zhì)
- 節(jié)點查詢方法、節(jié)點、移動通訊系統(tǒng)和計算機程序產(chǎn)品
- 一種根據(jù)節(jié)點集合構造節(jié)點關系樹的方法、裝置及系統(tǒng)
- 一種DHT網(wǎng)絡負載均衡裝置及虛節(jié)點劃分的方法
- 一種無線傳感網(wǎng)地理位置路由空洞處理方法
- 節(jié)點鎖定部件、節(jié)點滑軌、節(jié)點和機箱
- 一種待推薦節(jié)點線路的確定方法及裝置
- 流控方法、目標節(jié)點、節(jié)點及施主節(jié)點
- 節(jié)點布局確定方法以及裝置
- 一種具有分布式柔度的全柔順微位移放大機構
- 節(jié)點掛載方法、裝置、網(wǎng)絡節(jié)點及存儲介質(zhì)





