日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種抽取網頁信息塊的方法及裝置在審

專利信息
申請號: 201210004653.8 申請日: 2012-01-09
公開(公告)號: CN103198075A 公開(公告)日: 2013-07-10
發明(設計)人: 徐羽;彭默;蔡兵 申請(專利權)人: 騰訊科技(深圳)有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京三高永信知識產權代理有限責任公司 11138 代理人: 關文魁
地址: 518000 廣東省深*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 抽取 網頁 信息 方法 裝置
【說明書】:

技術領域

發明涉及計算機領域,特別涉及一種抽取網頁信息塊的方法及裝置。

背景技術

對于新聞網頁、小說網頁和博客網頁,這些網頁中包括對用戶有價值的關鍵信息,如新聞正文、小說正文和博客正文,還包括對用戶無用的信息,如廣告等無用信息;如果在返給用戶的網頁中只包括關鍵信息,不僅方便用戶瀏覽,還減少網絡資源的占用。

目前可以從網頁中抽取包括關鍵信息的信息塊,將抽取的信息塊封裝成新網頁;接下來以新聞網頁為例對該方案進行說明:一個新聞網頁一般包括頁頂導航、二級導航、正文標題、正文信息、正文、交互塊和鏈接信息塊等信息塊,對用戶有價值的信息塊包括二級導航、正文標題、正文信息和正文;對于一個新聞網頁,首先將該新聞網頁包括的信息劃分為多個信息塊,確定該新聞網頁的DOM(Document?Object?Model,文檔對象模型)樹結構,根據技術人員事先制作該DOM樹結構包括的信息模板確定劃分的每個信息塊的名稱,然后抽取名稱為二級導航、正文標題、正文信息和正文分別對應的信息塊,并將抽取的四個信息塊封裝成新的新聞網頁。

其中,需要說明的是:技術人員事先對大量的網頁進行歸類,將屬于同一DOM樹結構的網頁歸為一類,然后對屬于同一DOM樹結構的網頁進行分析并制作出該DOM樹結構包括的一個或多個信息塊模板。

在實現本發明的過程中,發明人發現現有技術至少存在以下問題:

不同網站的網頁的DOM樹結構都有所不同使得DOM樹種類繁多,如此對屬于每個DOM樹結構的網頁進行歸類,根據屬于每個DOM樹結構的網頁制作出每個DOM樹結構包括的信息塊模板,需要投入大量的人力;網站有可能進行網頁改版,一旦網頁改版,網頁采用的DOM樹結構也隨之改變,如此就需要再制作改變之后的DOM樹包括的信息塊模板,維護量巨大。

發明內容

為了減少人力投入和維護量,本發明提供了抽取網頁信息塊的方法及裝置。所述技術方案如下:

一種抽取網頁信息塊的方法,所述方法包括:

獲取網頁所包括的多個特征的特征值,所述網頁包括多個信息塊;

根據獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應,所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;

從所述網頁中選定至少一個信息塊以進行顯示。

獲取網頁所包括的多個特征的特征值,包括:

將所述網頁具有的特征的特征值設置為第一特征值,將所述網頁不具有的特征的特征值設置為第二特征值。

所述根據獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率,并將對應概率最大的類別定義為該信息塊的類別。

所述計算每個信息塊屬于每個類別的概率包括:

針對任一個類別C,根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別C的類別概率

對于所述信息塊對應的特征Tk的特征值,k為1至預設數值F之間的任一值,從所述類別C包括的樣本中獲取所述特征Tk的特征值為第一特征值的樣本,統計所述獲取的樣本的個數,得到第一樣本個數Ck;

從所述預設的每個類別包括的樣本中獲取所述特征Tk的特征值為第一特征值的樣本,統計所述獲取的樣本的個數,得到第二樣本個數Ek;

對所述特征Tk的特征值進行判斷;

如果為第一特征值,則根據所述第一樣本個數Ck和第二樣本個數Ek,并通過如下的公式(1)計算出所述特征Tk的特征概率P(Tk),根據所述類別概率P(C)和所述信息塊對應的特征的特征概率計算出所述信息塊屬于所述類別C的概率P=P(C)*P(T1)*P(T2)*P(T3)*……*P(TF);

其中,k1和k2為系數,且k2的值大于或等于k1的值;

如果為第二特征值,則根據所述第一樣本個數Ck和第二樣本個數Ek,并通過如下的公式(2)計算出所述特征Tk的特征概率P(Tk);根據所述類別概率P(C)和所述信息塊對應的特征的特征概率計算出所述信息塊屬于所述類別C的概率P=P(C)*P(T1)*P(T2)*P(T3)*……*P(TF);

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210004653.8/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美日韩国产色综合一二三四| 欧美精品日韩| 色妞www精品视频| 欧美综合国产精品久久丁香| 欧美日韩卡一卡二| 国产一区二区综合| 少妇太爽了在线观看免费| 亚洲精品无吗| 日韩午夜电影院| 99久久夜色精品国产网站 | 欧美一区二区精品久久| 欧美日韩精品中文字幕| 国产主播啪啪| 久久久久国产一区二区三区不卡| 亚洲久色影视| 99久久夜色精品国产网站| 国产精品一区二区在线观看| 日韩精品一区二区三区中文字幕| 91精品夜夜| 国产v亚洲v日韩v欧美v片| 大bbw大bbw巨大bbw看看| 热99re久久免费视精品频软件| 亚洲乱亚洲乱妇50p| 日本免费电影一区二区| 国产一级片网站| 亚洲精品国产setv| 一区二区免费在线观看| 91精品一区二区中文字幕| 亚洲精品少妇久久久久| 亚洲精品中文字幕乱码三区91| free性欧美hd另类丰满| **毛片在线免费观看| 亚洲午夜精品一区二区三区电影院| 欧美黄色一二三区| 国产一区免费播放| 国产一区二区伦理片| 国产女人和拘做受视频免费| 狠狠躁夜夜躁2020| 欧美激情精品一区| 国产精品日产欧美久久久久| 国产999精品视频| 99久久久国产精品免费无卡顿| 99精品视频免费看| 欧美国产精品久久| 午夜看大片| 91午夜精品一区二区三区| 国产欧美日韩另类| 亚洲视频精品一区| 日韩精品中文字幕一区二区| 99久精品视频| 国产欧美一区二区三区免费视频 | 国产精品一品二区三区四区五区| 国产激情二区| 丰满岳妇伦4在线观看| 日韩亚洲精品在线| 国产精品九九九九九九| 国产一二区视频| 中文字幕欧美日韩一区 | 国产一区二区视频免费观看| 午夜影院啪啪| 国产足控福利视频一区| 国产色99| 欧美乱妇在线视频播放| 91社区国产高清| 香蕉av一区二区三区| 国产乱色国产精品播放视频| 精品国产精品亚洲一本大道| av午夜影院| 香港日本韩国三级少妇在线观看| 岛国精品一区二区| 97精品超碰一区二区三区| 国产乱一区二区三区视频| 中文无码热在线视频| 久久人做人爽一区二区三区小说| 91精品资源| 国产在线精品区| 欧美精品日韩精品| 午夜诱惑影院| 国产欧美一区二区精品婷| 国产午夜一级片| 欧美激情片一区二区| 一区二区三区欧美精品|