[發明專利]Web信息抽取系統無效
| 申請號: | 200910012239.X | 申請日: | 2009-06-24 |
| 公開(公告)號: | CN101582075A | 公開(公告)日: | 2009-11-18 |
| 發明(設計)人: | 陳榮;郭銀蕊;劉亞清;陳濤;陳娟;孫向偉;史玉翡 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責任公司 | 代理人: | 李洪福 |
| 地址: | 116026遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | web 信息 抽取 系統 | ||
1.一種Web信息抽取系統,包括:檢索解析模塊、規則生成模塊和數據抽取存儲模塊:
所述檢索解析模塊包括網絡爬蟲單元和HTML解析器,
所述網絡爬蟲單元用于以設定的時間間隔動態地檢索下載同檢索規則匹配的Web頁面,
所述HTML解析器用于對網絡爬蟲單元下載的HTML網頁中的字符逐個掃描,解析HTML文檔的結構層次關系,并為相同的HTML標簽從零開始依次添加編號,最終形成HTML文件對應的DOM樹和腳本網頁;
所述規則生成模塊包括單槽抽取規則生成單元和/或多槽抽取規則生成單元,
所述單槽抽取規則生成單元,用于生成一個孤立的信息點的抽取的規則,即生成一個對網頁中的局部信息點進行抽取的規則,
所述多槽抽取規則生成單元,用于生成多個相互聯系的信息點的抽取規則,即生成一個對網頁中多個結構相似的信息塊中所有相關聯的信息點進行抽取的規則;
所述數據抽取存儲模塊,根據所述規則生成模塊生成的抽取規則,從檢索解析模塊下載的網頁上提取數據并以結構化的形式存儲;
其特征在于所述單槽抽取規則生成單元包括:腳本網頁信息節點獲取單元和DOM樹信息節點獲取單元;
所述腳本網頁信息獲取單元,用于啟動瀏覽器打開腳本網頁,選擇網頁信息點后,并自動生成根節點到目標信息節點的DOM路徑;
所述DOM樹信息節點獲取單元內部設有查找單元,用于用戶提供網頁中感興趣的信息點的部分或全部內容,通過查找單元把DOM樹中所有的相關節點展開,選中信息點對應的葉子節點,然后獲得到信息點在DOM樹中的路徑。
2.根據權利要求1所述的一種Web信息抽取系統,其特征在于所述多槽抽取規則生成單元包括:查找單元、選擇單元、預處理單元、語義字典單元和學習算法單元;
所述查找單元,用于獲得感興趣信息塊在DOM樹中的位置;
所述選擇單元,用于獲得所述查找單元查找到的信息塊在DOM樹中的節點的路徑,即得到包含HTML標簽的信息塊集合和信息塊在DOM樹中的路徑;
所述預處理單元,用于對所述選擇單元獲得的信息塊經過例子去噪和例子標注處理后作為訓練例子作為學習算法單元的輸入;
所述語義字典單元,用于對相關領域中基本術語作解釋,其中語義部分采用正則表達式或采用單詞和單詞縮寫的組合來表示,作為學習算法單元的輸入;
所述學習算法單元對預處理單元和語義字典單元提供的訓練例子和語義字典,經過學習算法處理后,獲得信息塊中所有相關聯的信息點的正則表達式規則集;
上述選擇單元得到信息塊在DOM樹中的路徑和學習算法單元得到的正則表達式集結合起來構成完整的多槽抽取規則集。
3.一種Web信息抽取方法,包括如下步驟:
(1)利用系統中的網絡爬蟲部件以設定的時間間隔動態地檢索下載同檢索規則匹配的Web頁面;
(2)然后使用系統中的HTML解析器對步驟(1)下載的HTML網頁中的字符逐個掃描,解析HTML文檔的結構層次關系,并為相同的HTML標簽從零開始依次添加編號,最終形成HTML文件對應的DOM樹和腳本網頁;
(3)根據步驟(2)獲取的DOM樹和腳本網頁生成信息的抽取規則,包括孤立的信息點的單槽抽取的規則和多個相互聯系的信息點的多槽抽取規則,具體生成步驟如下:
a、生成一個孤立的信息點的抽取的規則,即生成一個對網頁中的局部信息點進行抽取的規則;
b、生成多個相互聯系的信息點的抽取規則,即生成一個對網頁中多個結構相似的信息塊中所有相關聯的信息點進行抽取的規則;
(4)根據步驟(3)生成的抽取規則,從步驟(1)下載的網頁上提取數據并以結構化的形式存儲;
其特征在于所述步驟(3)中的步驟a具體包括:
啟動瀏覽器打開腳本網頁,選擇網頁信息點后,并自動生成根節點到目標信息節點的DOM路徑的步驟和用戶提供網頁中感興趣的信息點的部分或全部內容,通過查找單元把DOM樹中所有的相關節點展開,選中信息點對應的葉子節點,然后獲得到信息點在DOM樹中的路徑的步驟。
4.根據權利要求3所述的一種Web信息抽取方法,其特征在于所述步驟(3)中的步驟b具體包括如下步驟:
1)獲得感興趣信息塊在DOM樹中的位置;
2)獲得所述步驟1)查找到的信息塊在DOM樹中的節點的路徑,即得到包含HTML標簽的信息塊集合和信息塊在DOM樹中的路徑;
3)對所述步驟2)獲得的信息塊經過例子去噪和例子標注處理后作為訓練例子;
4)對相關領域中基本術語作解釋,其中語義部分采用正則表達式或采用單詞和單詞縮寫的組合來表示形成語義字典;
5)對步驟3)和步驟4)提供的訓練例子和語義字典,經過學習算法處理后,獲得信息塊中所有相關聯的信息點的正則表達式規則集;
6)對所述步驟2)中獲得的信息塊在DOM樹中的路徑和所述步驟5)中獲得的正則表達式規則集,兩者結合起來構成完整的多槽規則集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910012239.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動態業務處理系統和方法
- 下一篇:多圖管理方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





