[發明專利]網頁信息抽取方法有效
| 申請號: | 201410818097.7 | 申請日: | 2014-12-24 |
| 公開(公告)號: | CN104462540B | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 脫立恒;董微;劉學;陸世亮 | 申請(專利權)人: | 中國科學院聲學研究所;上海尚恩華科網絡科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京億騰知識產權代理事務所11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 信息 抽取 方法 | ||
技術領域
本發明涉及網頁技術領域,特別涉及一種網頁信息抽取方法。
背景技術
伴隨著互聯網及應用和服務的普及,網上信息量以指數級增長,海量的數據使用戶遭遇了選擇困難的問題。用戶搜索到的信息很大一部分是不感興趣的或是不相關的。因此,采集互聯網上的數據,收集用戶感興趣的內容,抽取有用信息將其集成結構化數據,呈現給用戶的相關技術變得十分重要。Web頁面具有動態異構性的特點,Web頁面會隨著時間的變化發生動態改變,且不同的網站之前具有異構性的特點,因此從不同的Web頁面中抽取有用的信息也具有相當的難度,且耗時。
發明內容
本發明的目的是提供了一種網頁信息抽取方法,提高網頁信息抽取的準確率和效率。
為實現上述目的,本發明提供了一種網頁信息抽取方法,所述方法包括:
對網頁Web的頁面數據建立文檔對象模型DOM樹,從所述DOM樹中遞歸選取包含所有待抽取信息的節點子樹,選取所述節點子樹中所述所有待抽取信息的屬性節點的路徑、值節點的路徑和最小的子樹,將所述最小的子樹的根節點作為超文本標記語言HTML標簽相對特征坐標系的原點;
將從DOM樹中訓練得到待抽取信息的屬性和值在HTML標簽相對特征坐標系中的路徑,生成屬性坐標和值坐標,根據所述相對特征坐標系的原點、所述屬性坐標和值坐標定位所述待抽取信息,其中所述所有待抽取信息包括所述待抽取信息;
將所述屬性坐標和所述值坐標作為所述待抽取信息的抽取規則,其中,不同的待抽取信息訓練出的抽取規則不同,所述所有待抽取信息的抽取規則組成所述Web的抽取規則集合并生成包裝器;
通過所述包裝器的抽取規則的屬性坐標和值坐標,定位所述待抽取信息的屬性和值,并抽取Web信息。
進一步地,所述方法還包括:構建所述HTML標簽相對特征坐標系:
將所述所有待抽取信息中的第一個待抽取信息的屬性或值所在HTML標簽的相關節點作為訓練坐標原點;
在以所述訓練坐標原點為根節點的子樹中查找所述待抽取信息的屬性和值;
當所述訓練坐標原點不能定位所述所有待抽取信息的屬性和值時,更新所述訓練坐標原點,將所述訓練坐標原點的父節點作為更新后的訓練坐標原點;
當所述訓練坐標原點能定位所述所有待抽取信息的屬性和值時,將所述所有待抽取信息中的每個待抽取信息的屬性和值所在標簽到當前訓練坐標原點的路徑作為所述每個待抽取信息的屬性坐標和值坐標,所述每個待抽取信息的屬性坐標和值坐標組成的坐標系構建所述HTML標簽相對特征坐標系。
進一步地,所述方法還包括:在滿足所述抽取規則的準確率和召回率閾值的情況下,同類Web頁面數據生成的包裝器最小,所述包裝器中的抽取規則所定位的標簽的路徑最短。
進一步地,在所述通過所述包裝器的抽取規則的屬性坐標和值坐標,定位所述待抽取信息的屬性和值之前,所述方法還包括:
定位所述待抽取信息的抽取坐標原點,根據所述訓練坐標原點的文本特征和正則表達式匹配,查找出所述抽取坐標原點所在標簽。
進一步地,所述抽取Web信息具體包括:
對所述Web建立HTML標簽相對特征坐標系;
對所述Web中的所述待抽取信息建立屬性坐標和值坐標;
利用訓練集中的網頁修正所述待抽取信息的屬性坐標和值坐標,使得所述待抽取信息的屬性坐標和值坐標能夠定位到固定閾值比例的待抽取信息,并將所述待抽取信息的屬性坐標和值坐標作為所述待抽取信息的抽取規則;
對于同類的Web頁面數據,將所有待抽取信息的屬性坐標和值坐標對組合,并構成同類的Web頁面數據的包裝器;
通過所述坐標原點的文本特征和正則表達式,查找出所述坐標原點的標簽,當所述包裝器中的抽取規則定位到的屬性坐標與所述待抽取信息的屬性一致時,則所述包裝器中的抽取規則定位到的值坐標為所述待抽取信息。
進一步地,所述抽取Web信息具體還包括:
對于不同類的Web頁面數據,將所有待抽取信息的屬性坐標和值坐標對組合,并構成不同類的Web頁面數據的包裝器集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;上海尚恩華科網絡科技股份有限公司,未經中國科學院聲學研究所;上海尚恩華科網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410818097.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





