[發明專利]一種從網頁中抽取信息的方法及裝置有效
| 申請號: | 200910090455.6 | 申請日: | 2009-08-12 |
| 公開(公告)號: | CN101996190A | 公開(公告)日: | 2011-03-30 |
| 發明(設計)人: | 劉偉;萬小軍;楊建武;肖建國 | 申請(專利權)人: | 北京大學;北大方正集團有限公司;北京方正電子政務信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 抽取 信息 方法 裝置 | ||
技術領域
本發明涉及信息檢索和數據集成技術領域,特別涉及一種從網頁中抽取信息的方法及裝置。
背景技術
Web自上世紀90年代初誕生以來便以驚人的速度發展,到目前Web已經成為了世界上最大的信息倉庫,覆蓋了現實世界的各個領域,成為了人類工作生活獲取信息主要途徑。Web信息的發布主要是以網頁的形式實現,據最新的估計,Web中網頁的數量已經超過了550個billion,也就是5500億。
可見,網頁雖然是信息非常重要的數據來源,但由于Web中網站數量眾多,而且這些信息所在的網頁通常會包還大量無用的噪音信息,嚴重影響對信息處理的效率和檢索的質量。因此,手工方式的訪問已經無法滿足用戶信息獲取的需要,為了讓用戶更有效地訪問和利用Web中海量的信息,目前,出現了各種Web信息搜索和集成相關的應用,例如:垂直搜索引擎、輿情分析等。
上述這些應用的一個必要步驟就是將所需的信息從網頁中準確地抽取出來。但由于絕大部分網頁都是以HTML語言編寫,文檔結構化程度很低,而且缺乏語義的連續性,網頁的非結構化主要表現為:
1、信息的表現格式不一致,即表示相同類型語義的信息格式、表現形式多樣性化,沒有統一的標準,例如:在網頁中使用的字體以及在頁面中位置繁雜不一,日期地址表達格式多樣化等。
2、缺乏統一的布局標準,即沒有一種對同一類體裁的信息統一的布局標準。以新聞為例,不同新聞網站之間新聞的各部分屬性信息在網頁的布局并不完全一致,比如新聞的發布日期可能出現在標題的上方,也可能出現在標題的下方甚至是正文的下方。
因此,目前從非結構化格式的網頁中抽取信息的方法還有以下局限性:
抽取信息不完整,例如,對新聞信息的抽取目前只提出了新聞正文和標題的抽取方法,但新聞其它的相關信息在很多應用中也起著非常重要的作用,發布時間在新聞搜索引擎中是搜索結果排序的一個關鍵因素,但還沒有包括發布時間的抽取方法;
抽取信息粒度過高,例如:對新聞信息的抽取目前的方法主要是在網頁層次的抽取,但由于新聞網頁通常包含大量無用的噪音信息,嚴重影響信息處理的質量;
抽取準確性不高且不穩定,例如:目前,新聞抽取的方法依賴于新聞網頁的模板,但新聞網站之間的網頁模板存在著較大的差異,因此,抽取的準確性一般在80%左右,而且不同網頁之間準確性波動較。
發明內容
本發明實施例提供一種從網頁中抽取信息的方法及裝置,用以解決現有技術中不能從非結構化格式的網頁中獲取準確的信息問題。
本發明實施例提供一種從網頁中抽取信息的方法,包括:
查找網頁中的每種信息屬性,獲取每種信息屬性對應的信息屬性候選集;
根據保存的信息屬性間的位置關系與布局關系概率的對應關系,查找至少兩種信息屬性間的至少一個最大布局關系概率,并確定查找到的最大布局關系概率對應的位置關系;
從所述至少兩種信息屬性對應的信息屬性候選集中,抽取滿足所述位置關系的信息屬性組合。
本發明實施例提供一種從網頁中抽取信息的裝置,包括:
獲取單元,用于查找網頁中的每種信息屬性,獲取每種信息屬性對應的信息屬性候選集:
確定單元,用于根據保存的信息屬性間的位置關系與布局關系概率的對應關系,查找至少兩種信息屬性間的至少一個最大布局關系概率,并確定查找到的最大布局關系概率對應的位置關系;
抽取單元,用于從所述至少兩種信息屬性分別對應的信息屬性候選集中,抽取滿足所述位置關系的信息屬性組合。
本發明實施例提供的從網頁中抽取信息的方法,首先查找網頁中的每種信息屬性,獲取每種信息屬性對應的信息屬性候選集,然后根據保存的信息屬性間的位置關系與布局關系概率的對應關系,查找至少兩種信息屬性間的至少一個最大布局關系概率,并確定查找到的最大布局關系概率對應的位置關系,并從所述至少兩種信息屬性對應的信息屬性候選集中,抽取滿足所述位置關系的信息屬性組合,這樣,根據信息屬性間的位置關系,形成高相關性的聚類,從而可以從網頁中快速、準確地抽取出所需的信息。
附圖說明
圖1為本發明實施例從網頁中抽取信息的流程圖;
圖2為本發明第一實施例中獲取新聞屬性候選集的流程圖;
圖3為本發明第二實施例中從網頁中抽取信息的流程圖;
圖4為本發明第二實施例中標題和作者的位置示意圖;
圖5為本發明第二實施例中標題、作者和評論鏈接的位置示意圖;
圖6為發明實施例從網頁中抽取信息的裝置結構圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學;北大方正集團有限公司;北京方正電子政務信息科技有限公司,未經北京大學;北大方正集團有限公司;北京方正電子政務信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910090455.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





