[發明專利]一種基于高頻字圖模型的Deep Web數據爬取方法無效
| 申請號: | 201110246903.4 | 申請日: | 2011-08-25 |
| 公開(公告)號: | CN102289502A | 公開(公告)日: | 2011-12-21 |
| 發明(設計)人: | 禹曉輝;閆中敏;彭朝暉 | 申請(專利權)人: | 山東英佰德信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 高頻 模型 deep web 數據 方法 | ||
1.一種基于高頻字圖模型的Deep?Web數據爬取方法,其特征是,該方法的實現步驟如下:
步驟1:使用采樣數據庫和漢字頻度表作為輸入,統計獲得屬性高頻字列表和屬性高頻字覆蓋率圖;
步驟2:將屬性高頻字列表中的第一個漢字用作查詢關鍵字;
步驟3:根據查詢關鍵字,查詢接口向Web數據庫提交查詢請求;
步驟4:Web數據庫響應查詢請求,將查詢結果集合組織為Deep?Web動態頁面;
步驟5:獲取相應的Deep?Web頁面,得到結構化數據記錄,將這些記錄放入本地數據庫;
步驟6:如果查詢覆蓋率達到δ則轉步驟7,否則對每一個候選漢字統計屬性高頻字覆蓋率圖模型中已提交字的覆蓋率之和,其值最小的為最佳查詢漢字,然后繼續執行步驟3-5獲取最佳查詢漢字提交之后返回的查詢結果,再轉入步驟6選擇下一個查詢關鍵字;
步驟7:估算在Web數據庫中匹配每一個候選漢字的所有記錄數,從而獲得估算的新數據獲取率,選擇新數據獲取率最高的一個漢字用作查詢關鍵字,繼續執行步驟3-5獲取該查詢關鍵字提交之后返回的查詢結果,再轉步驟7選擇下一個查詢關鍵字,直至數據爬取結束。
2.如權利要求1所述的基于高頻字圖模型的Deep?Web數據爬取方法,其特征在于,所述步驟2中獲得屬性高頻字列表和屬性高頻字覆蓋率圖,包括以下步驟:
步驟a):初始化屬性高頻字列表CFW和屬性高頻字覆蓋率圖MCPG,其中CFW是集合類型,初始的CFW為空;MCPG為|CFWtsinghua|*|CFWtsinghua|的矩陣,矩陣每個元素初始值為1;
步驟b):對CFWtsinghua中的每一個wi,計算wi在DBsample中的字頻p(wi,DBsample),將其加入到屬性高頻字列表CFW中,其中
步驟c):對CFWtsinghua中的每一個wi,計算每一個高頻字wj與wi的互覆蓋率MCP(wi/wj,DBsample),形成屬性高頻字覆蓋率圖MCPG,其中
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東英佰德信息科技有限公司,未經山東英佰德信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110246903.4/1.html,轉載請聲明來源鉆瓜專利網。





