[發明專利]網頁信息處理方法及裝置有效
| 申請號: | 201210382157.6 | 申請日: | 2012-10-10 |
| 公開(公告)號: | CN103729354A | 公開(公告)日: | 2014-04-16 |
| 發明(設計)人: | 蔡兵 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 信息處理 方法 裝置 | ||
1.一種網頁信息處理方法,其特征在于,包括:
對原始網頁進行特征識別,得出各特征的取值,所述特征包括:用于表示原始網頁與目標網頁相似程度的第一特征、用于表示文本長度的第二特征,所述文本長度是指原始網頁中以文字形式顯示出來的文字及標點符號的總個數、用于表示原始網頁的URL中是否包括目標關鍵字的第三特征、用于表示原始網頁是否存在目標內容標題關鍵字的第四特征、用于表示原始網頁是否存在目標內容翻頁鏈接的第五特征和用于表示原始網頁是否存在目標內容圖片的第六特征;
根據所述各特征的取值判斷所述原始網頁是否為目標網頁;
當判斷出所述原始網頁為目標網頁時,從原始網頁中提取目標內容標題關鍵字、目標內容翻頁鏈接和目標內容圖片;
在新頁面中顯示所述目標內容標題關鍵字、目標內容翻頁鏈接和目標內容圖片。
2.根據權利要求1所述的方法,其特征在于,所述對原始網頁進行特征識別,得出各特征的取值包括:
利用預設文本分類器對原始網頁進行計算,得出第一特征的取值,所述第一特征的取值范圍為[0,100];
計算原始網頁中以文字形式顯示出來的文字及標點符號的總個數,得出文本長度,所述文本長度的取值即為第二特征的取值;
判斷原始網頁的URL中是否包含目標關鍵字,其中,判斷結果為原始網頁的URL中包含目標關鍵字時,得出第三特征的取值為真,否則,得出第三特征的取值為假;
判斷原始網頁是否存在目標內容標題關鍵字,判斷結果為原始網頁存在目標內容標題關鍵字時,得出第四特征的取值為真,否則,得出第四特征的取值為假;
判斷原始網頁是否存在目標內容翻頁鏈接,判斷結果為原始網頁存在目標內容翻頁鏈接時,得出第五特征的取值為真,否則,得出第五特征的取值為假;
判斷原始網頁是否存在目標內容圖片,判斷結果為原始網頁存在目標內容圖片時,得出第六特征的取值為真,否則,得出第六特征的取值為假。
3.根據權利要求2所述的方法,其特征在于,所述目標關鍵字包括:“/files/article/html/”、多個連續的數字串目錄名稱或者“xs”;
所述目標內容標題關鍵字包括:“第*卷”、“第*章”、“第*節”或者“第*篇”;
所述目標內容翻頁鏈接所采用的文字包括:“回目錄”、“上一章”、“下一章”、“上一節”、“下一節”、“回首頁”、“上一頁”、“下一頁”、“上一卷”、“下一卷”、“上一篇”或者“下一篇”。
4.根據權利要求1-3任一項所述的方法,其特征在于,所述根據所述各特征的取值判斷所述原始網頁是否為目標網頁包括:
判斷第二特征的取值是否小于第一預設閾值且第三特征的取值是否為真且第六特征的取值是否為真,其中,判斷結果為第二特征的取值小于第一預設閾值且第三特征的取值為真且第六特征的取值為真時,得出所述原始網頁為目標網頁,否則,得出所述原始網頁不是目標網頁;
或者,判斷第二特征的取值是否小于第一預設閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結果為第二特征的取值小于第一預設閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網頁為目標網頁,否則,得出所述原始網頁不是目標網頁;
或者,判斷第一特征的取值是否大于第二預設閾值且第五特征的取值是否為真且第六特征的取值是否為真,其中,判斷結果為第一特征的取值大于第二預設閾值且第五特征的取值為真且第六特征的取值為真時,得出所述原始網頁為目標網頁,否則,得出所述原始網頁不是目標網頁;
或者,判斷第一特征的取值是否大于第二預設閾值且第二特征的取值是否小于第一預設閾值且第四特征的取值是否為真且第六特征的取值是否為真,其中,判斷結果為第一特征的取值大于第二預設閾值且第二特征的取值小于第一預設閾值且第四特征的取值為真且第六特征的取值為真時,得出所述原始網頁為目標網頁,否則,得出所述原始網頁不是目標網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210382157.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發動機噴射閥清洗設備
- 下一篇:輥清洗裝置





