[發(fā)明專利]一種基于循環(huán)策略的深層網頁數(shù)據(jù)獲取方法有效
| 申請?zhí)枺?/td> | 201210151881.8 | 申請日: | 2012-05-16 |
| 公開(公告)號: | CN102682125A | 公開(公告)日: | 2012-09-19 |
| 發(fā)明(設計)人: | 鮮學豐;崔志明;楊元峰;趙朋朋;梁穎紅 | 申請(專利權)人: | 江蘇省現(xiàn)代企業(yè)信息化應用支撐軟件工程技術研發(fā)中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙) 11369 | 代理人: | 史霞 |
| 地址: | 215104 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環(huán) 策略 深層 網頁 數(shù)據(jù) 獲取 方法 | ||
1.一種基于循環(huán)策略的深層網頁數(shù)據(jù)獲取方法,其特征在于,包括以下步驟:
步驟一、分別對多個同一領域的數(shù)據(jù)拳中的每一個數(shù)據(jù)源預設多個不同的查詢關鍵詞;
步驟二、依次對每一個數(shù)據(jù)源進行數(shù)據(jù)獲取,其中,當對所述多個數(shù)據(jù)源中的第一個數(shù)據(jù)源進行數(shù)據(jù)獲取時,計算當前數(shù)據(jù)源中的各查詢關鍵詞的查詢效率,并按照查詢效率對當前數(shù)據(jù)源中的查詢關鍵詞進行排序,根據(jù)查詢效率從大到小的順序依次選擇各查詢關鍵詞對當前數(shù)據(jù)源進行一次又一次的數(shù)據(jù)獲取,直到所述當前數(shù)據(jù)源的連續(xù)進行的α次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率均不大于一新數(shù)據(jù)獲取率閾值,則中止對當前數(shù)據(jù)源的數(shù)據(jù)獲取,并對當前數(shù)據(jù)源的下一個數(shù)據(jù)源進行數(shù)據(jù)獲取,直到最后一個數(shù)據(jù)源達到中止;
步驟三、檢驗所述多個數(shù)據(jù)源的數(shù)據(jù)獲取是否均滿足預設結束條件,如果不滿足,則重復步驟一,直至所述多個數(shù)據(jù)源的數(shù)據(jù)獲取均滿足預設結束條件,其中,當對所述多個數(shù)據(jù)源中的任一個數(shù)據(jù)源滿足預設結束條件時,則結束對該數(shù)據(jù)源的數(shù)據(jù)獲取。
2.如權利要求1所述的基于循環(huán)策略的深層網頁數(shù)據(jù)獲取方法,其特征在于,
所述步驟二中,對多個數(shù)據(jù)源中的任一個數(shù)據(jù)源進行數(shù)據(jù)獲取,通過以下步驟實現(xiàn),
(1)當前數(shù)據(jù)源預設有n個查詢關鍵詞,計算各查詢關鍵詞的查詢效率,并按照查詢效率對查詢關鍵詞進行排序,根據(jù)查詢效率從大到小的順序選擇第一個查詢關鍵詞,根據(jù)該查詢關鍵詞在當前數(shù)據(jù)源上進行第一次數(shù)據(jù)獲取,所述數(shù)據(jù)獲取過程為:在當前數(shù)據(jù)源上執(zhí)行,從當前數(shù)據(jù)源下載與當前查詢關鍵詞匹配的數(shù)據(jù)記錄;
(2)重復步驟(1),且當重復步驟(1)的次數(shù)達到rK次之后,其中,rK<n,r為大于等于1的整數(shù),在根據(jù)第rK+1個查詢關鍵詞在當前數(shù)據(jù)源上獲得與第rK+1個查詢關鍵詞匹配的數(shù)據(jù)記錄之后,再從已經下載的數(shù)據(jù)記錄中提取z個新的查詢關鍵詞,使得當前數(shù)據(jù)源對應的查詢關鍵詞的個數(shù)為n+z個。
3.如權利要求2所述的基于循環(huán)策略的深層網頁數(shù)據(jù)獲取方法,其特征在于,所述K值逐漸增大。
4.如權利要求1或2或3所述的基于循環(huán)策略的深層網頁數(shù)據(jù)獲取方法,其特征在于,所述查詢關鍵詞的查詢效率Efficient(qi,DBj)與該查詢關鍵詞qi在當前數(shù)據(jù)源DBj上的查詢回報率Reward(qi,DBj)成正比,且與該查詢關鍵詞qi在當前的數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost(qi,DBj)成反比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇省現(xiàn)代企業(yè)信息化應用支撐軟件工程技術研發(fā)中心,未經江蘇省現(xiàn)代企業(yè)信息化應用支撐軟件工程技術研發(fā)中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210151881.8/1.html,轉載請聲明來源鉆瓜專利網。





