[發明專利]一種面向主題的獲取動態頁面內容的方法及系統有效
| 申請號: | 201210060335.3 | 申請日: | 2012-03-08 |
| 公開(公告)號: | CN102662966A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 歸文勝;黎建輝;楊風雷 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 主題 獲取 動態 頁面 內容 方法 系統 | ||
技術領域
本發明屬于網絡數據采集技術領域,尤其涉及一種面向主題的獲取動態頁面內容的方法及系統。
背景技術
當今是信息技術高速發展的時代,各種新事物層出不窮,網絡信息呈爆炸趨勢,如何從海量數據信息中獲取有用的信息,在很多領域和行業中成為一種必需的支撐手段,能夠最快最全地掌握行業領域相關的信息往往有利于做出恰當的抉擇。與此同時,互聯網信息爬取技術已經有了相當發展,尤其是在通用搜索領域,提供給用戶的信息量比以前更大,處理用戶請求的響應時間也大大提高;特定于客戶需求的服務也越來越人性化,搜索內容也從文本、圖片覆蓋到當今的熱門領域-視頻。然而隨著信息多元化發展,對于特定領域和特定主題的搜索需求越來越多,但通用搜索技術在這些領域的召回率和準確率通常無法滿足特定的需求。于是垂直搜索技術應運而生,由于其提供的信息相關度高、同主題信息更多更深入、目標群體更為明確等特點,當前該領域的新技術與新應用越來越廣泛。
盡管垂直搜索與通用搜索一樣面臨著在互聯網抓取過程中如何爬取動態頁面信息的問題,但由于垂直搜索面向的用戶更為具體,需求更為明確,因此如何提供更為全面的基于主題的動態頁面信息是垂直搜索引擎的生存基礎。目前在垂直搜索領域,如何獲取動態頁面方面已經取得了一些進展,例如在獲取動態頁面信息上多采用在抓取客戶端中嵌入瀏覽器內核的方式來獲取動態內容,然而該方式雖能獲取到一定層次的動態內容,但由于瀏覽器解析過程中加載了頁面布局模塊、大量的兼容性代碼、與主題無關的動態圖片或Flash以及各種廣告聯盟的廣告推廣代碼等與抓取主題無關的內容,因此時空效率比較低下。為此有人提出將JavaScript解析器嵌入到抓取過程中來實現動態抓取的方式,通常的做法是獲取頁面、構造DOM、標記DOM中的JavaScript、構造宿主對象、執行JavaScript、返回動態頁面。通過這種方式雖然減少了與抓取主題無關的頁面布局代碼、兼容性代碼和圖片操作代碼等內容的加載解析,但仍然存在著一些缺點:1.加載與主題無關的JavaScript;2.從遠程主機請求外部JavaScript文件的時間效率低;3.在執行JavaScript獲取的動態頁面內容丟失了原頁面中存在的部分信息。鑒于這種狀況,本申請在這里提供一種新的面向主題的獲取動態頁面內容的方法。
發明內容
針對當前普遍采用的以嵌入JavaScript解析器的方式實現動態頁面內容獲取的方法存在的問題,本發明的目的在于提供一種面向主題的獲取動態頁面內容的方法及系統。
本發明提出以下解決方案,通過建立JavaScript過濾庫以過濾與主題無關的JavaScript文件,從而減少加載與主題無關的外部JavaScript文件;通過建立JavaScript本地庫以便從本地加載原本需要從遠程主機加載的JavaScript文件,從而減少與遠程主機之間的交互,進而減少加載外部JavaScript文件所需的時間;通過將原頁面中存在而JavaScript解析器解析后的動態頁面中缺少的信息加入到動態頁面中來提高動態頁面的完整性。
本申請提供一種面向主題的獲取頁面動態內容的方法及系統,用以解決垂直搜索領域如何爬取動態頁面信息的問題,技術方案如下:
本申請提供一種面向主題的獲取頁面動態內容的方法,具體步驟如下:
1.建立JavaScript過濾庫
分析每一個抓取頁面內部的JavaScript文件,根據其是否與抓取主題相關來決定是否將其相關信息存入到JavaScript過濾庫,并增加庫維護模塊。
2.建立JavaScript本地庫
初始存入常見的JavaScript文件,然后根據每一次遠程請求的外部JavaScript文件來完善該JavaScript本地庫,并增加庫維護模塊。
3.提供生成各種宿主對象的類
主要包括JavaScript語言本身不存在但在執行JavaScript代碼時可能需要訪問的對象。
4.獲取頁面信息
基于正確的頁面編碼獲取頁面信息。
5.生成當前頁面的DOM對象
利用DOMParser,HTMLParser等HTML解析器生成該頁面的DOM對象,當前頁面中如果使用到相關宿主對象,則從步驟3提供的宿主類中實例化相應對象。
6.標記是否需過濾JavaScript文件
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210060335.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁預加載方法及系統
- 下一篇:一種進程通信方法和裝置





