[發明專利]一種抽取網頁信息塊的方法及裝置在審
| 申請號: | 201210004653.8 | 申請日: | 2012-01-09 |
| 公開(公告)號: | CN103198075A | 公開(公告)日: | 2013-07-10 |
| 發明(設計)人: | 徐羽;彭默;蔡兵 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 關文魁 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 抽取 網頁 信息 方法 裝置 | ||
技術領域
本發明涉及計算機領域,特別涉及一種抽取網頁信息塊的方法及裝置。
背景技術
對于新聞網頁、小說網頁和博客網頁,這些網頁中包括對用戶有價值的關鍵信息,如新聞正文、小說正文和博客正文,還包括對用戶無用的信息,如廣告等無用信息;如果在返給用戶的網頁中只包括關鍵信息,不僅方便用戶瀏覽,還減少網絡資源的占用。
目前可以從網頁中抽取包括關鍵信息的信息塊,將抽取的信息塊封裝成新網頁;接下來以新聞網頁為例對該方案進行說明:一個新聞網頁一般包括頁頂導航、二級導航、正文標題、正文信息、正文、交互塊和鏈接信息塊等信息塊,對用戶有價值的信息塊包括二級導航、正文標題、正文信息和正文;對于一個新聞網頁,首先將該新聞網頁包括的信息劃分為多個信息塊,確定該新聞網頁的DOM(Document?Object?Model,文檔對象模型)樹結構,根據技術人員事先制作該DOM樹結構包括的信息模板確定劃分的每個信息塊的名稱,然后抽取名稱為二級導航、正文標題、正文信息和正文分別對應的信息塊,并將抽取的四個信息塊封裝成新的新聞網頁。
其中,需要說明的是:技術人員事先對大量的網頁進行歸類,將屬于同一DOM樹結構的網頁歸為一類,然后對屬于同一DOM樹結構的網頁進行分析并制作出該DOM樹結構包括的一個或多個信息塊模板。
在實現本發明的過程中,發明人發現現有技術至少存在以下問題:
不同網站的網頁的DOM樹結構都有所不同使得DOM樹種類繁多,如此對屬于每個DOM樹結構的網頁進行歸類,根據屬于每個DOM樹結構的網頁制作出每個DOM樹結構包括的信息塊模板,需要投入大量的人力;網站有可能進行網頁改版,一旦網頁改版,網頁采用的DOM樹結構也隨之改變,如此就需要再制作改變之后的DOM樹包括的信息塊模板,維護量巨大。
發明內容
為了減少人力投入和維護量,本發明提供了抽取網頁信息塊的方法及裝置。所述技術方案如下:
一種抽取網頁信息塊的方法,所述方法包括:
獲取網頁所包括的多個特征的特征值,所述網頁包括多個信息塊;
根據獲取的所述多個特征值確定所述每個信息塊的類別,所述多個信息塊分別與多個類別一一對應,所述多個類別包括頁頂導航、二級導航、正文標題、正文信息、正文、小說標題、小說正文信息、小說正文、小說導航、博客導航、博客標題、博客信息、博客正文、鏈接信息塊和交互塊中至少一者;
從所述網頁中選定至少一個信息塊以進行顯示。
獲取網頁所包括的多個特征的特征值,包括:
將所述網頁具有的特征的特征值設置為第一特征值,將所述網頁不具有的特征的特征值設置為第二特征值。
所述根據獲取的所述多個特征值確定所述每個信息塊的類別包括:計算每個信息塊屬于每個類別的概率,并將對應概率最大的類別定義為該信息塊的類別。
所述計算每個信息塊屬于每個類別的概率包括:
針對任一個類別C,根據所述類別C包括的樣本總數Ctotal和每個類別包括的樣本總數Total計算出所述類別C的類別概率
對于所述信息塊對應的特征Tk的特征值,k為1至預設數值F之間的任一值,從所述類別C包括的樣本中獲取所述特征Tk的特征值為第一特征值的樣本,統計所述獲取的樣本的個數,得到第一樣本個數Ck;
從所述預設的每個類別包括的樣本中獲取所述特征Tk的特征值為第一特征值的樣本,統計所述獲取的樣本的個數,得到第二樣本個數Ek;
對所述特征Tk的特征值進行判斷;
如果為第一特征值,則根據所述第一樣本個數Ck和第二樣本個數Ek,并通過如下的公式(1)計算出所述特征Tk的特征概率P(Tk),根據所述類別概率P(C)和所述信息塊對應的特征的特征概率計算出所述信息塊屬于所述類別C的概率P=P(C)*P(T1)*P(T2)*P(T3)*……*P(TF);
其中,k1和k2為系數,且k2的值大于或等于k1的值;
如果為第二特征值,則根據所述第一樣本個數Ck和第二樣本個數Ek,并通過如下的公式(2)計算出所述特征Tk的特征概率P(Tk);根據所述類別概率P(C)和所述信息塊對應的特征的特征概率計算出所述信息塊屬于所述類別C的概率P=P(C)*P(T1)*P(T2)*P(T3)*……*P(TF);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210004653.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





