[發明專利]一種頁面快速轉換方法、裝置和系統有效
| 申請號: | 201110270268.3 | 申請日: | 2011-09-13 |
| 公開(公告)號: | CN102999511A | 公開(公告)日: | 2013-03-27 |
| 發明(設計)人: | 賈宇 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 頁面 快速 轉換 方法 裝置 系統 | ||
1.一種頁面快速轉換方法,其特征在于,包括:
請求接收步驟,接收用戶端頁面請求;
頁面獲取步驟,根據所述請求獲取頁面文檔,并解析所述文檔的DOM樹結構;
標簽過濾步驟,依據標簽庫和結構標簽詞典,對所述DOM樹中的各級標簽進行過濾;
頁面整理步驟,將過濾后的DOM樹中的標簽及其所包含的內容按照所對應結構寫入顯示框架;
頁面返回步驟,返回整理后的結果至用戶端。
2.如權利要求1所述的方法,其特征在于:
所述的標簽過濾步驟具體包括,針對DOM樹中的各級標簽,執行以下步驟:
初步標簽過濾步驟,對于當前層級的子標簽,依據標簽庫對該級子標簽進行過濾;
結構型標簽過濾步驟,針對過濾后所述保留的結構型標簽,依據結構標簽詞典,對其進行過濾。
3.如權利要求2所述的方法,其特征在于:
所述初步標簽過濾步驟包括標簽判斷步驟:
對于保留的文本標簽,將所述的文本標簽及其內容和對應的父標簽轉入頁面整理步驟;
對于保留的圖像標簽,當所述圖像標簽指示的圖像的尺寸大小低于預定尺寸大小閾值,則將所述的圖像標簽及其內容和對應的父標簽轉入頁面整理步驟;
對于保留的結構型標簽,轉入結構型標簽過濾步驟。
4.如權利要求1所述的方法,其特征在于:
所述的結構標簽詞典的標簽詞包括標簽id屬性和class屬性包含的文本中的標簽詞;其中,所述的標簽詞根據統計頻次選定。
5.如權利要求4所述的方法,其特征在于:
所述的結構型標簽過濾步驟具體包括:
查找步驟,針對每一個結構型標簽,根據其id屬性和/或class屬性文本中的標簽詞,在結構標簽詞典的標簽詞中進行匹配查找;
標簽相似度計算步驟,根據匹配查找結果,按照標簽規則集,計算所述結構型標簽與結構型標簽詞典中標簽詞的標簽相似度;
判斷過濾步驟,將計算得到的標簽相似度與預置的閾值進行比較,并根據比較結果,對所述結構型標簽進行過濾。
6.如權利要求5所述的方法,其特征在于:
所述的標簽相似度根據標簽文本相似度和標簽語義相似度計算得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110270268.3/1.html,轉載請聲明來源鉆瓜專利網。





