[發明專利]一種面向主題的獲取動態頁面內容的方法及系統有效
| 申請號: | 201210060335.3 | 申請日: | 2012-03-08 |
| 公開(公告)號: | CN102662966A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 歸文勝;黎建輝;楊風雷 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 主題 獲取 動態 頁面 內容 方法 系統 | ||
1.一種面向主題的獲取動態頁面內容的方法,其步驟為:
1)在抓取服務器端建立一JavaScript過濾庫和一JavaScript本地庫;
2)獲取每一抓取頁面的頁面信息,生成當前頁面的DOM對象;如果當前頁面中使用宿主對象,則該抓取服務器將其實例化為相應對象;
3)根據所述JavaScript過濾庫檢驗當前頁面中請求的外部JavaScript文件,如果與主題無關,則在當前頁面的DOM對象相應位置設置無需加載標記,否則設置正常加載標記;
4)對于標記為正常加載的外部JavaScript文件,如果當前處理的JavaScript文件存在于所述JavaScript本地庫,則設置本地加載標記,否則設置正常加載標記;
5)執行當前頁面中的JavaScript,獲取動態頁面信息;其中,根據加載標記加載外部JavaScript文件;
6)檢驗獲取的每一動態頁面是否丟失了原有頁面中的部分信息,如果丟失,則重新將丟失部分添加到動態頁面中,得到整合后的頁面信息。
2.如權利要求1所述的方法,其特征在于所述JavaScript過濾庫存儲與抓取主題無關的JavaScript文件;所述JavaScript本地庫存儲外部JavaScript文件。
3.如權利要求2所述的方法,其特征在于所述JavaScript過濾庫還包括在線統計客戶滿意度,插入第三方廣告推廣代碼功能的JavaScript文件。
4.如權利要求2或3所述的方法,其特征在于根據所述JavaScript過濾庫檢驗當前頁面中請求的外部JavaScript文件,如果該文件在所述JavaScript過濾庫中存在,則在當前頁面對應的DOM對象相應位置設置無需加載標記,否則設置正常加載標記。
5.如權利要求1所述的方法,其特征在于所述得到整合后的頁面信息的方法為:遍歷當前動態頁面的動態頁面庫,針對每個動態頁面,初始化一個空棧并對它的根標簽執行:
a)取根標簽下的第一個元素;
b)如果該元素不存在,彈出棧頂元素,然后獲取棧頂元素;此時如果棧頂元素為空,則取下一個動態頁面的根標簽,否則取出該元素中的下一個元素;此時如果該元素的下一個元素為空,則彈出棧頂元素;此時如果棧為空,則取下一個動態頁面的根標簽,如果該元素為文本內容,則從當前頁面的DOM中查詢該本文內容;
c)如果標簽內部包含標簽,則將當前標簽壓入棧中,取出該標簽下第一個元素,執行步驟b)的處理;否則,取出該標簽的文本內容,從當前頁面的DOM中查詢該本文內容;
d)如果從當前頁面的DOM中找到查詢的本文內容,則獲取棧頂元素,如果棧頂元素為空,則取下一個動態頁面的根標簽;否則取出該元素中下一個元素,執行步驟b)的處理;
e)將該文本內容放在根標簽內并插入到當前頁面主體標簽</body>前面的位置,獲取棧頂元素,并取其中的下一個元素,執行步驟b)的處理;
f)如果下一個動態頁面不存在,則結束處理。
6.如權利要求1所述的方法,其特征在于該抓取服務器端包括一生成宿主對象的類,用于實例化相應宿主對象;所述宿主對象包括:HTML?DOM對象、CSS對象、EVENT對象、BOM對象、XMLHttpRequest對象。
7.如權利要求1所述的方法,其特征在于利用HTML解析器生成當前頁面的DOM對象;所述HTML解析器為DOMParser或HTMLParser。
8.如權利要求1或2所述的方法,其特征在于所述JavaScript本地庫包括jQuery文件集合、Ext文件集合、Dojo文件集合、Google?Web?ToolKit文件集合、ProtoType文件集合、YUI文件集合,并檢驗文件的邏輯完整性;然后根據關鍵字為各個文件集合建立關鍵字與各個文件集合的一對一映射關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210060335.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁預加載方法及系統
- 下一篇:一種進程通信方法和裝置





