[發明專利]一種用于識別WAP頁面的方法與設備有效
| 申請號: | 201310252708.1 | 申請日: | 2013-06-24 |
| 公開(公告)號: | CN103383695B | 公開(公告)日: | 2018-01-12 |
| 發明(設計)人: | 蒲鵬;李冠興 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙)11370 | 代理人: | 羅朋,周建華 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 識別 wap 頁面 方法 設備 | ||
技術領域
本發明涉及計算機技術領域,尤其涉及一種用于識別WAP頁面的技術。
背景技術
由于頁面編碼的不規范,很多站點會經常在WEB頁面中使用手機頁面特有的標簽屬性,即,WEB頁面中經常會包含WAP頁面特征。而傳統的WAP頁面識別方式僅針對頁面中的WAP頁面特征進行識別,即,只要在頁面中識別出WAP頁面特征,就將其識別為WAP頁面。這種識別方式導致傳統的WAP頁面識別誤召回很多不規范的WEB頁面,極大地影響了用戶的使用體驗。
因此,如何準確、高效地識別WAP頁面,成為本領域技術人員亟需解決的問題之一。
發明內容
本發明的目的是提供一種用于識別WAP頁面的方法與設備。
根據本發明的一個方面,提供了一種用于識別WAP頁面的方法,其中,該方法包括以下步驟:
a獲取待處理頁面;
b自所述待處理頁面的頁面標簽中,提取WEB頁面特征與WAP頁面特征;
c基于所述WEB頁面特征與WAP頁面特征,識別所述待處理頁面中的WAP頁面。
根據本發明的另一方面,還提供了一種用于識別WAP頁面的識別設備,其中,該設備包括:
頁面獲取裝置,用于獲取待處理頁面;
特征提取裝置,用于自所述待處理頁面的頁面標簽中,提取WEB頁面特征與WAP頁面特征;
第一識別裝置,用于基于所述WEB頁面特征與WAP頁面特征,識別所述待處理頁面中的WAP頁面。
與現有技術相比,本發明自待處理頁面的頁面標簽中,提取WEB頁面特征與WAP頁面特征,同時基于該WEB頁面特征與WAP頁面特征,識別所述待處理頁面中的WAP頁面;由于在識別WAP頁面的過程中,同時考慮WAP頁面特征,即正向頁面特征,與WEB頁面特征,即反向頁面特征,避免僅基于WAP頁面特征來識別WAP頁面所造成的誤召回不規范WEB頁面的情況,提高了識別WAP頁面的準確率,提升了用戶的使用體驗。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1示出根據本發明一個方面的用于識別WAP頁面的設備示意圖;
圖2示出根據本發明一個優選實施例的用于識別WAP頁面的設備示意圖;
圖3示出根據本發明一個優選實施例的用于識別WAP頁面的流程設圖;
圖4示出根據本發明另一個方面的用于識別WAP頁面的方法流程圖;
圖5示出根據本發明一個優選實施例的用于識別WAP頁面的方法流程圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本發明作進一步詳細描述。
圖1示出根據本發明一個方面的用于識別WAP頁面的設備示意圖。識別設備1包括頁面獲取裝置101、特征提取裝置102和第一識別裝置103。
頁面獲取裝置101獲取待處理頁面。具體地,頁面獲取裝置101例如通過與搜索引擎等設備的交互,獲取該搜索引擎所爬取的頁面,作為待處理頁面,或者,直接通過爬取的方式,爬取各站點的頁面,以作為待處理頁面。
本領域技術人員應能理解上述獲取待處理頁面的方式僅為舉例,其他現有的或今后可能出現的獲取待處理頁面的方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
特征提取裝置102自所述待處理頁面的頁面標簽中,提取WEB頁面特征與WAP頁面特征。具體地,特征提取裝置102例如通過頁面分析器,或通過其他預定的特征提取的方式,自該待處理頁面的頁面標簽中,提取WEB頁面與WAP頁面特征。在此,該WEB頁面特征包括但不限于-HTML屬性標簽、FLASH屬性標簽等;該WAP特征包括但不限于WML屬性標簽、XHTML-MP文檔類型屬性標簽、META移動優化屬性標簽、META特征視圖屬性標簽等。
本領域技術人員應能理解上述WEB頁面特征與WAP頁面特征的提取方式僅為舉例,其他現有的或今后可能出現的WEB頁面特征與WAP頁面特征的提取方式如可適用于本發明,也應包含在本發明保護范圍以內,并在此以引用方式包含于此。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310252708.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:生物標本處理裝置和方法
- 下一篇:液體冷卻系統的泄漏檢測系統





