[發(fā)明專利]一種網(wǎng)頁動態(tài)信息獲取方法有效
| 申請?zhí)枺?/td> | 201110087355.5 | 申請日: | 2011-04-07 |
| 公開(公告)號: | CN102184184A | 公開(公告)日: | 2011-09-14 |
| 發(fā)明(設(shè)計)人: | 鄭中華;周俊;高威;帥志虎 | 申請(專利權(quán))人: | 安徽博約信息科技有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230000 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 動態(tài) 信息 獲取 方法 | ||
[技術(shù)領(lǐng)域]
本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁動態(tài)信息獲取方法。
[背景技術(shù)]
隨著互聯(lián)網(wǎng)的發(fā)展,各種提高網(wǎng)站訪問效率及安全性的技術(shù)層出不窮,從VBScript到JavaScript,從傳統(tǒng)的C/S架構(gòu)到目前流行的Ajax技術(shù),效率更高、更安全的技術(shù)往往是網(wǎng)站應用的趨勢。為防止網(wǎng)絡(luò)爬蟲的頻繁訪問,或者黑客的惡意攻擊,而增加網(wǎng)站服務(wù)器的負擔,越來越多的網(wǎng)站開發(fā)商都使用客戶端腳本語言(如JS,VBScript)動態(tài)生成網(wǎng)頁顯示信息,從而實現(xiàn)信息隱藏。但是隨著腳本代碼的使用,也加重了瀏覽器的負擔。瀏覽器在解析網(wǎng)頁時,必須先解析腳本代碼,獲取相應的數(shù)據(jù)信息,而后才可以渲染整個頁面。腳本代碼解析速度越快的瀏覽器,打開網(wǎng)頁的速度就越快,受歡迎度就越高。
在目前的互聯(lián)網(wǎng)監(jiān)控領(lǐng)域里,監(jiān)控目的是為了從互聯(lián)網(wǎng)大量繁雜的信息中過濾廣告、網(wǎng)頁版面等垃圾信息,從而抽取網(wǎng)頁中重要的內(nèi)容信息,并且即時獲取互聯(lián)網(wǎng)上重要的更新信息,因此對網(wǎng)頁的解析速度(獲取重要信息的速度)要求比較高。對于網(wǎng)頁中的動態(tài)信息,目前主流的技術(shù)都是模擬瀏覽器實現(xiàn)所有腳本代碼的解析,獲取所有信息的網(wǎng)絡(luò)URL,從而獲取存放于服務(wù)器的動態(tài)信息,其獲取網(wǎng)頁動態(tài)信息流程圖如圖1所示。通過上述方法獲取的信息是未經(jīng)過任何過濾的,而且解析垃圾信息所浪費的大量時間也降低了系統(tǒng)解析效率,同時解析的結(jié)果也比較混亂,對后續(xù)的提取工作造成了很大不便。
目前主流的網(wǎng)頁動態(tài)解析技術(shù)主要是通過解析網(wǎng)頁中所有的腳本代碼段,然后獲取網(wǎng)頁所有的動態(tài)信息(包括有用信息和垃圾信息)。現(xiàn)有技術(shù)在動態(tài)信息解析過程中,首先提取出網(wǎng)頁源碼中所有的JS腳本代碼段;然后將腳本代碼段輸入所搭建的腳本代碼執(zhí)行環(huán)境,由于腳本代碼段抽取后是比較混亂的,不能正確執(zhí)行,因此在執(zhí)行環(huán)境中第一步需要對腳本代碼做一定的處理,如調(diào)整代碼執(zhí)行順序,然后調(diào)用開源的解析引擎對代碼段執(zhí)行解析;最后將解析結(jié)果做一定處理后輸出包含動態(tài)信息的文本字符串。
現(xiàn)有技術(shù)的不足之處在于:
1,解析信息沒有任何過濾,解析結(jié)果包含大量垃圾信息,解析效率較低;
2,重復解析垃圾信息,每個網(wǎng)站所有網(wǎng)頁的垃圾信息都具有相同的解析方法,故而這些信息在成千上萬分網(wǎng)頁中被重復解析,則更加降低了解析效率。
3,解析結(jié)果比較混亂,垃圾信息與有用信息混在一起,不利于后續(xù)垃圾信息的剔除以及有用信息的提取工作
4,需要設(shè)計腳本代碼抽取模塊,并且搭建解析環(huán)境,而解析環(huán)境的搭建是個非常繁瑣難度也很大的工作,很多中小型企業(yè)并沒有搭建解析環(huán)境的技術(shù)實力。
[發(fā)明內(nèi)容]
本發(fā)明要解決的技術(shù)問題是提供一種網(wǎng)頁動態(tài)信息獲取方法,該方法繞過了腳本代碼的獲取與解析,大大提高了解析效率,提高解析速度,而且可以通過為每個網(wǎng)站配置特定的模板來指定所要獲取的動態(tài)信息,并且解析結(jié)果文本的組織也具有特定的格式,利于后續(xù)的抽取工作。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是,一種網(wǎng)頁動態(tài)信息獲取方法,包括動態(tài)信息配置模板的配置,解析環(huán)境的搭建,動態(tài)資源的獲取以及動態(tài)信息的組織輸出四個步驟;其中:
(1)動態(tài)信息配置模板的配置:根據(jù)網(wǎng)頁的頁面結(jié)構(gòu)以及所要獲取的動態(tài)信息配置動態(tài)信息配置模板,由于各網(wǎng)站網(wǎng)頁頁面結(jié)構(gòu)不同,但每個網(wǎng)站內(nèi)部的網(wǎng)頁頁面結(jié)構(gòu)基本一致,因此一個網(wǎng)站僅需要一個動態(tài)信息配置模板,該模板記錄著需要獲取的動態(tài)信息,未賦值的變量庫以及變量庫的賦值方法;
(2)解析環(huán)境的搭建:根據(jù)網(wǎng)頁所屬的網(wǎng)站,讀取對應網(wǎng)站的動態(tài)信息配置模板,并根據(jù)動態(tài)信息配置模板中記錄的變量庫以及變量庫的賦值方法,結(jié)合網(wǎng)頁HTML源碼數(shù)據(jù)對變量庫進行賦值;解析環(huán)境的搭建完全等價于變量庫中所有變量的賦值,所有的變量都成功賦值,則表示解析環(huán)境搭建完成;
(3)動態(tài)資源的獲?。焊鶕?jù)動態(tài)信息配置模板所記錄的需要獲取的動態(tài)信息,調(diào)用在第二步賦值的變量庫中的數(shù)據(jù),得到動態(tài)資源,即需要獲取的動態(tài)信息,動態(tài)資源既可以是普通的字符串,也可以是網(wǎng)絡(luò)資源的URL地址,動態(tài)資源的獲取過程也就是確定資源值或者URL地址;
(4)動態(tài)信息的組織輸出:該過程就是將第三步獲取的動態(tài)資源按照指定格式組織成格式化字符串,并輸出。
在上述方法的步驟(2)中,所述的解析環(huán)境針對變量庫中不同的變量,賦值順序也不同,具體賦值順序如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽博約信息科技有限責任公司,未經(jīng)安徽博約信息科技有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110087355.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





