[發明專利]一種DeepWeb響應頁面數據抽取方法無效
| 申請號: | 200910010201.9 | 申請日: | 2009-01-21 |
| 公開(公告)號: | CN101582074A | 公開(公告)日: | 2009-11-18 |
| 發明(設計)人: | 申德榮;于戈;孫高尚;聶鐵錚;寇月;王振華 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 沈陽東大專利代理有限公司 | 代理人: | 李運萍 |
| 地址: | 110004遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 deepweb 響應 頁面 數據 抽取 方法 | ||
1.一種深層網絡響應頁面數據抽取方法,其特征是該方法包括以下步驟:
步驟(1)選取深層網絡響應頁面Page;在查詢頁面輸入關鍵字Key,查詢得到響應頁面Page,響應頁面Page是HTML語法描述的字符串數組,用DOM解析工具將HTML字符串轉化為DOM樹結構,DOM樹中的結點定義:(N,Kn,Wn,Tn),其中N表示結點N,Kn表示結點N包含關鍵字的個數,Wn表示結點N中包含關鍵字的孩子結點的個數,Tn表示結點N的文本內容,則DOM樹結構描述為:
其中,N為DOM樹中的結點,CNi為結點N的第i個孩子結點;
步驟(2)抽取頁面模板信息;對于響應頁面的DOM樹結構,找到包含關鍵字的孩子結點個數Wn最多的雙親結點P,保存該結點的絕對路徑{i1,i2,...,in},絕對路徑的起始結點為根結點root,則P結點可以表示為
P結點所有的孩子結點子樹即為記錄結點子樹集;將記錄結點子樹集所有記錄結點子樹先根遍歷轉化為帶標記的token塊序列,統計記錄token塊序列中非空結點最小深度,記為lownum,再將帶標記的token塊序列轉化為帶標記的token字符序列;用LCS算法處理以上兩個記錄的帶標記的token字符序列,得到一個公共token字符序列;分隔并過濾公共token字符序列得到模板信息;
步驟(3)數據抽??;根據絕對路徑取得記錄結點的雙親結點P,P下的每個記錄結點子樹的根結點即為記錄的根結點,先根遍歷每個記錄的根結點,讀取文本結點的內容Tn,得到一個記錄的文本內容,即得到記錄級數據;基于模板信息對token塊進行切割,得到新的token塊序列,設A為待切割的token塊,B為模板信息,U為模板信息中token塊集合,若A切割必需滿足:且②A的內容必需完全包含B的內容,并且A的token塊深度等于B的token塊深度;
步驟(4)token塊合并;依據統計值lownum繼續對token塊進行合并,合并規則為:(1)如果token塊深度高于lownum,則將當前token塊合并到下一token塊中;(2)如果token塊深度等于lownum時,并且下一token塊深度大于lownum,則輸出本token塊內容;如果下一token塊深度等于lownum,則當前token塊合并到下一token塊中;
(5)數據表格聚類,得到數據塊級別數據;將標有相同模板信息的token塊放入數據表格的同一列,其它無標記的token塊同塊序列號最近的帶標記的token塊放在一起。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910010201.9/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





