[發明專利]一種基于高頻字圖模型的Deep Web數據爬取方法無效

申請號：	201110246903.4	申請日：	2011-08-25
公開（公告）號：	CN102289502A	公開（公告）日：	2011-12-21
發明（設計）人：	禹曉輝;閆中敏;彭朝暉	申請（專利權）人：	山東英佰德信息科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	濟南圣達知識產權代理有限公司 37221	代理人：	張勇
地址：	250101 山東***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于高頻模型 deep web 數據方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于高頻字圖模型的Deep?Web數據爬取方法，其特征是，該方法的實現步驟如下：

步驟1：使用采樣數據庫和漢字頻度表作為輸入，統計獲得屬性高頻字列表和屬性高頻字覆蓋率圖；

步驟2：將屬性高頻字列表中的第一個漢字用作查詢關鍵字；

步驟3：根據查詢關鍵字，查詢接口向Web數據庫提交查詢請求；

步驟4：Web數據庫響應查詢請求，將查詢結果集合組織為Deep?Web動態頁面；

步驟5：獲取相應的Deep?Web頁面，得到結構化數據記錄，將這些記錄放入本地數據庫；

步驟6：如果查詢覆蓋率達到δ則轉步驟7，否則對每一個候選漢字統計屬性高頻字覆蓋率圖模型中已提交字的覆蓋率之和，其值最小的為最佳查詢漢字，然后繼續執行步驟3-5獲取最佳查詢漢字提交之后返回的查詢結果，再轉入步驟6選擇下一個查詢關鍵字；

步驟7：估算在Web數據庫中匹配每一個候選漢字的所有記錄數，從而獲得估算的新數據獲取率，選擇新數據獲取率最高的一個漢字用作查詢關鍵字，繼續執行步驟3-5獲取該查詢關鍵字提交之后返回的查詢結果，再轉步驟7選擇下一個查詢關鍵字，直至數據爬取結束。

2.如權利要求1所述的基于高頻字圖模型的Deep?Web數據爬取方法，其特征在于，所述步驟2中獲得屬性高頻字列表和屬性高頻字覆蓋率圖，包括以下步驟：

步驟a)：初始化屬性高頻字列表CFW和屬性高頻字覆蓋率圖MCPG，其中CFW是集合類型，初始的CFW為空；MCPG為|CFW_tsinghua|*|CFW_tsinghua|的矩陣，矩陣每個元素初始值為1；

步驟b)：對CFW_tsinghua中的每一個w_i，計算w_i在DB_sample中的字頻p(w_i，DB_sample)，將其加入到屬性高頻字列表CFW中，其中

p(wi,DB)=|R(wi,DB)||DB|]]>

步驟c)：對CFW_tsinghua中的每一個w_i，計算每一個高頻字w_j與w_i的互覆蓋率MCP(w_i/w_j，DB_sample)，形成屬性高頻字覆蓋率圖MCPG，其中

MCP(wi|wj,DB)=|R(wi,DB)∩R(wj,DB)||R(wj,DB)|.]]>

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于山東英佰德信息科技有限公司，未經山東英佰德信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110246903.4/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】