[發(fā)明專利]用于抓取富互聯(lián)網(wǎng)應(yīng)用的方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310428634.2 | 申請(qǐng)日: | 2013-09-18 |
| 公開(kāi)(公告)號(hào): | CN103823827B | 公開(kāi)(公告)日: | 2017-03-01 |
| 發(fā)明(設(shè)計(jì))人: | I·V·奧努;P·約內(nèi)斯庫(kù);S·喬杜里;G·馮博赫曼;G-V·茹爾當(dāng) | 申請(qǐng)(專利權(quán))人: | 國(guó)際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京市中咨律師事務(wù)所11247 | 代理人: | 于靜,張亞非 |
| 地址: | 美國(guó)*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 抓取 互聯(lián)網(wǎng) 應(yīng)用 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明一般地涉及使用數(shù)據(jù)處理系統(tǒng)的內(nèi)容發(fā)現(xiàn),更具體地說(shuō),涉及使用數(shù)據(jù)處理系統(tǒng)抓取(crawling)富互聯(lián)網(wǎng)應(yīng)用。
背景技術(shù)
Web應(yīng)用抓取是內(nèi)容索引的基礎(chǔ)。為了索引和查找新信息,搜索引擎應(yīng)能有效地抓取Web應(yīng)用。抓取對(duì)于例如針對(duì)安全性、合規(guī)性和可訪問(wèn)性測(cè)試執(zhí)行Web應(yīng)用分析的工具也很重要。
通過(guò)引入更新、更豐富的Web應(yīng)用開(kāi)發(fā)技術(shù),提供了更有用,交互性更強(qiáng)的Web應(yīng)用。這些被稱為富互聯(lián)網(wǎng)應(yīng)用(RIA)的應(yīng)用已經(jīng)改變了傳統(tǒng)Web應(yīng)用,從而產(chǎn)生響應(yīng)更快的應(yīng)用,提升了用戶體驗(yàn)。
富互聯(lián)網(wǎng)應(yīng)用計(jì)算可以使用腳本在客戶端側(cè)處理,該腳本允許用戶通過(guò)觸發(fā)在用戶接口組件上定義的事件(例如,超文本標(biāo)記語(yǔ)言(HTML)元素)而(部分地或完全地)修改用戶接口。異步通信允許用戶檢索網(wǎng)頁(yè)的各部分,并允許Web設(shè)計(jì)者開(kāi)始構(gòu)建極為復(fù)雜和交互性極強(qiáng)的Web應(yīng)用。
在一般增加Web應(yīng)用可用性的同時(shí)實(shí)現(xiàn)的改進(jìn)帶來(lái)了許多Web應(yīng)用抓取難題。一個(gè)重要難題是傳統(tǒng)抓取技術(shù)不再與使用新技術(shù)構(gòu)建的Web應(yīng)用兼容,因?yàn)榻y(tǒng)一資源定位符(URL)未改變并且抓取引擎必須使用網(wǎng)頁(yè)的文檔對(duì)象模型(DOM)推斷與應(yīng)用狀態(tài)相關(guān)的信息。顯然,當(dāng)前的搜索引擎和應(yīng)用測(cè)試者均不能抓取如Bau等人披露的富互聯(lián)網(wǎng)應(yīng)用(BAU,J.、BURSZTEIN,E.、GUPTA,D與MITCHELL,J.C.,“State?of?the?Art:Automated?Black-Box?Web?Application?Vulnerability?Testing(現(xiàn)有技術(shù):自主黑盒Web應(yīng)用漏洞測(cè)試,發(fā)表于IEEE?Symposium?on?Security?and?Privacy,2010年,332-345頁(yè))”)。抓取富互聯(lián)網(wǎng)應(yīng)用是一項(xiàng)需要解決以保持搜索和測(cè)試Web應(yīng)用能力的問(wèn)題。
此外,多數(shù)有關(guān)抓取富互聯(lián)網(wǎng)應(yīng)用的發(fā)表結(jié)果使用標(biāo)準(zhǔn)寬度優(yōu)先或深度優(yōu)先策略,其中稍微有些變化,如Mesbah等人公開(kāi)的(MESBAH,A.、BOZDAG,E.和DEURSEN,A.等人發(fā)表的“Crawling?Ajax?by?Inferring?User?Interface?State?Changes(通過(guò)推斷用戶接口狀態(tài)變化抓取Ajax,發(fā)表于第8屆國(guó)際Web工程大會(huì)會(huì)議記錄,IEEE?Computer?Society,2008年,第122-134頁(yè))”)。雖然(純粹形式的)寬度優(yōu)先或深度優(yōu)先策略保證在給定足夠時(shí)間的情況下發(fā)現(xiàn)完整的應(yīng)用,但是兩個(gè)策略通常太寬泛且缺乏靈活性,因此可能無(wú)法有效地抓取多數(shù)富互聯(lián)網(wǎng)應(yīng)用。
Benjamin等人報(bào)告了有關(guān)基于模型的抓取的某些研究,該抓取使用有關(guān)網(wǎng)站結(jié)構(gòu)的假設(shè)定義有效抓取策略(BENJAMIN,K.、BOCHMANN,G.V.、JOURDAN,G.V.和ONUT,I.V.,“Some?Modeling?Challenges?when?Testing?Rich?Internet?Applications?for?Security(測(cè)試富互聯(lián)網(wǎng)應(yīng)用安全性的一些建模難題,發(fā)表于2010年在巴黎召開(kāi)的第一屆建模與漏洞檢測(cè)國(guó)際研討會(huì)(MDV2010))”)和(BENJAMIN,K.、VON?BOCHMANN、G.,DINCTURK、M.E.,JOURDAN、G-V.和ONUT,I.V.,“A?Strategy?for?Efficient?Crawling?of?Rich?Internet?Applications(富互聯(lián)網(wǎng)應(yīng)用的有效抓取策略,S.Auer、O.Díaz和G.Papadopoulos編輯,發(fā)表于在帕福斯,塞浦路斯召開(kāi)的Web工程:第11屆國(guó)際會(huì)議ICWE2011,Springer?Berlin/Heidelberg.,第74-89頁(yè))”)。但是,研究算法所用的假設(shè)通常太嚴(yán)格,多數(shù)現(xiàn)實(shí)世界富互聯(lián)網(wǎng)應(yīng)用無(wú)法遵循這一假設(shè)。
發(fā)明內(nèi)容
根據(jù)一個(gè)實(shí)施例,一種用于抓取富互聯(lián)網(wǎng)應(yīng)用的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程根據(jù)已發(fā)現(xiàn)事件集合中的每個(gè)事件集合的預(yù)定優(yōu)先級(jí),在狀態(tài)探索階段執(zhí)行所述已發(fā)現(xiàn)事件集合,其中具有較高優(yōu)先級(jí)的事件在執(zhí)行具有較低優(yōu)先級(jí)的事件之前執(zhí)行完畢。響應(yīng)于判定剩余轉(zhuǎn)變,所述計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程在轉(zhuǎn)變探索階段執(zhí)行事件集合。所述計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程還判定作為執(zhí)行該事件集合內(nèi)的事件的結(jié)果,是否存在新?tīng)顟B(tài),以及響應(yīng)于判定存在新?tīng)顟B(tài),返回到所述狀態(tài)探索階段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)際商業(yè)機(jī)器公司,未經(jīng)國(guó)際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310428634.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問(wèn)互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動(dòng)攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問(wèn)互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 在線應(yīng)用平臺(tái)上應(yīng)用間通信的回調(diào)應(yīng)答方法、應(yīng)用及在線應(yīng)用平臺(tái)
- 應(yīng)用使用方法、應(yīng)用使用裝置及相應(yīng)的應(yīng)用終端
- 應(yīng)用管理設(shè)備、應(yīng)用管理系統(tǒng)、以及應(yīng)用管理方法
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 應(yīng)用市場(chǎng)的應(yīng)用搜索方法、系統(tǒng)及應(yīng)用市場(chǎng)
- 使用應(yīng)用的方法和應(yīng)用平臺(tái)
- 應(yīng)用安裝方法和應(yīng)用安裝系統(tǒng)
- 使用遠(yuǎn)程應(yīng)用進(jìn)行應(yīng)用安裝
- 應(yīng)用檢測(cè)方法及應(yīng)用檢測(cè)裝置
- 應(yīng)用調(diào)用方法、應(yīng)用發(fā)布方法及應(yīng)用發(fā)布系統(tǒng)





