[發明專利]一種網絡信息的自動提取方法及裝置有效
| 申請號: | 201210335719.1 | 申請日: | 2012-09-11 |
| 公開(公告)號: | CN102855324A | 公開(公告)日: | 2013-01-02 |
| 發明(設計)人: | 楊俊拯;溫予;張旸;黃百寧;王世平;葛猛;孟玲會 | 申請(專利權)人: | 北京云泓道元信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;趙鎮勇 |
| 地址: | 100025 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 信息 自動 提取 方法 裝置 | ||
技術領域
本發明涉及一種網絡信息的自動提取方法及裝置,屬于網絡信息提取技術領域。
背景技術
對于在網頁上展現的信息,現有技術普遍通過正則表達式來描述,對于不同的網頁,所對應的正則表達式往往是各不相同,這樣就導致網絡信息提取的工作量較大。
發明內容
本發明為解決現有的網絡信息提取的工作量較大的問題,進而提供了一種網絡信息的自動提取方法及裝置。為此,本發明提供了如下的技術方案:
一種網絡信息的自動提取方法,包括:
從給定信息S相關的網頁合集W中找到含有給定信息S的子集Ssub中元素的網頁W’;
根據預定規則生成信息pattern集合P’,并將信息pattern集合P’與正則表達式集合P求合集獲得集合P1;
將集合P1與給定信息相關的網頁合集W中的所有的網頁進行匹配,獲得集合Ssub’,直到Ssub==Ssub′時抓取過程結束。
一種網絡信息的自動提取裝置,包括:
網頁選取單元,用于從給定信息S相關的網頁合集W中找到含有給定信息S的子集Ssub中元素的網頁W’;
集合選取單元,用于根據預定規則生成信息pattern集合P’,并將信息pattern集合P’與正則表達式集合P求合集獲得集合P1;
內容抓取單元,用于將集合P1與給定信息相關的網頁合集W中的所有的網頁進行匹配,獲得集合Ssub’,直到Ssub==Ssub′時抓取過程結束。
本發明提供的技術方案通過根據不同的網頁生成相應的正則表達式集合,實現自動提取網頁中的內容,省去了很多工作量。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明的具體實施方式提供的兩個網頁獲取信息的示意圖;
圖2是本發明的具體實施方式提供的n個網頁獲取信息的示意圖;
圖3是本發明的具體實施方式提供的網絡信息的自動提取方法的流程示意圖;
圖4是本發明的具體實施方式提供的生成信息pattern集合P’的流程示意圖;
圖5是本發明的具體實施方式提供的驗證正則表達式集合的流程示意圖;
圖6是本發明的具體實施方式提供的人臉特征定位裝置的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
本具體實施方式提供的技術方案的原理是:對于不同類型的網頁會包含同一種信息的情況,由于同一種信息在不同的網站上表達方式是不同的。例如在音樂領域,互聯網上有很多的包含音樂信息網站、論壇等,它們不同的網站、論壇網頁結構和表現形式一般是不相同的,但是它們包含了很多同種類型的信息,例如歌曲名、歌手名、專輯等信息,對于一種信息,對于同一類型的網頁(記為urlpattern1),可以通過正則表達式(prefix1?info?suffix1)來表示,并將記錄下來值的合集記為V1。而對于不同類型的網頁(urlpattern2),它們有不同的正則表達式(prefix2?info?suffix2),將這個網站的值的合集記為V2,則V1與V2的交集不等于空,并且V1和V2的值描述的信息是一致的。以此類推如果存在n一個不同類型網頁,則應存在小于等于n個值的集合,存在小于等于n個正則表達式。具體邏輯如圖1和圖2所示。因此對于給定信息的部分集合(比如10到100的樣本量),記為Ssub,則可以通過網頁合集W,來得到信息合集S’。定義覆蓋率為|S∩S’|/S,定義準確率|S∩S’|/S’,相對于覆蓋率,準確率對于網頁內容提取更重要。因為如果準確率過低,對于大多數的應用是沒有意義的,但是覆蓋率過低可以通過海量的網頁數量進行彌補,所以本具體實施方式提供的技術方案是針對提高網頁內容提取的準確率而提出的。下面結合說明書附圖進行詳細說明,如圖3所示,相應的網絡信息的自動提取方法包括:
步驟31,從給定信息S相關的網頁合集W中找到含有給定信息S的子集Ssub中元素的網頁W’。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云泓道元信息技術有限公司,未經北京云泓道元信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210335719.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電力地線收線器
- 下一篇:等離子體反應腔清洗裝置及其等離子體反應腔清洗方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





