[發明專利]基于位置標記的網頁信息抽取方法和裝置有效
| 申請號: | 201310385373.0 | 申請日: | 2013-08-29 |
| 公開(公告)號: | CN103473285B | 公開(公告)日: | 2017-04-12 |
| 發明(設計)人: | 徐銳波;付赟 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京智匯東方知識產權代理事務所(普通合伙)11391 | 代理人: | 康正德,郭海彬 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 位置 標記 網頁 信息 抽取 方法 裝置 | ||
技術領域
本發明涉及互聯網領域,具體而言,涉及一種基于位置標記的網頁信息抽取方法和裝置。
背景技術
網頁信息抽取是指從網頁文本中抽取出目標信息并將其形成結構化數據的過程。
由于網頁在某種程度上具有一定的結構,因此網頁信息抽取不同于對普通文本的抽取。這種結構化的形式帶來了一定的缺點。在網頁中,數據通常會被標簽所分割,一個完整的句子中往往穿插著對句子本身不起任何作用的標簽,從而無法表達句子原始的意義,這就使得傳統的基于自然語言處理的文本信息抽取技術無法直接移植到網頁信息抽取領域。
現有的網頁信息抽取技術,主要依靠人工編寫抽取規則進行,即通過對網頁及其源碼的分析,由編程人員找出一些規則,再根據這些規則編寫程序抽取目標數據。人工規則提取方法存在著以下缺點:
1、需要抓取大批量的站點時,對每個站點編寫抽取規則工作量大,而且操作人員的編程工作受到主觀因素影響,存在一定錯誤率;
2、在出現網頁改版時,網頁的頁面結構有可能出現變化,造成此前編寫的規則失效,需要重復編寫規則的工作,嚴重影響了效率。
針對目前人工編寫規則進行網頁信息提取工作量大、效率低的問題,現有技術中尚未提出有效的解決方案。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的網頁信息抽取裝置和相應的網頁信息抽取方法。
依據本發明的一個方面,提供了基于位置標記的網頁信息抽取方法。該基于位置標記的網頁信息抽取方法,包括以下步驟:獲取訓練頁面,訓練頁面中標注了至少一個屬性,被標注屬性的內容與網頁中需要抽取的文本內容對應;獲取訓練頁面中多個屬性的前綴標簽,前綴標簽包括當前屬性與前一屬性之間的所有標簽,多個屬性包括被標注屬性;在被標注屬性的前綴標簽中選取被標注屬性的起始標記;在被標注屬性之后的標簽中選取結束標記;在需要抽取的網頁中查詢起始標記和結束標記,并抽取起始標記和結束標記之間的屬性內容,以得到屬性內容中包含的信息。
進一步地,起始標記為被標注屬性的前綴標簽中的標簽或者標簽組合,標簽或者標簽組合滿足以下條件:在多個屬性的前綴標簽中,標簽或者標簽組合僅出現在被標注屬性的前綴標簽中。
可選地,在被標注屬性的前綴標簽中選取被標注屬性的起始標記包括:將被標注屬性之前相鄰的標簽記為備選標記;判斷備選標記是否在多個屬性的前綴標簽中唯一,如果是,將備選標記作為起始標記,如果否,將與備選標記之前相鄰的標簽與備選標記進行組合,組合結果記為新的備選標記,直至挑選出起始標記或者被標注屬性的前綴標簽中的標簽組合均不唯一。
進一步地,在將被標注屬性之前相鄰的標簽記為備選標記之前還包括:將被標注屬性的前綴標簽按照與被標注屬性的鄰近關系距離進行排序,其中被標注屬性之前相鄰的標簽記為排序第一的標簽。
可選地,獲取訓練頁面的步驟包括:獲取需要抽取的文本內容,并將需要抽取的文本內容作為目標屬性值;從目標網站中選取網頁作為訓練頁面;在訓練頁面中查詢與目標屬性值相同或相近的屬性,并將相同或相近的屬性作為被標注屬性。
進一步地,在訓練頁面中查詢與目標屬性值相同或相近的屬性包括:在訓練頁面中判斷是否存在屬性值與目標屬性值相同的屬性,如果是,將該與目標屬性值相同的屬性作為被標注屬性;如果否,將目標屬性值進行切分,根據訓練頁面中文本行與切分后的屬性值的相似度得出與目標屬性值相近的屬性。
可選地,將目標屬性進行切分的步驟包括:去除訓練頁面中所有的標簽,得到網頁中文本行組成的數組;計算數組中文本行的平均長度;將目標屬性值按照平均長度進行切分。
可選地,根據訓練頁面中文本行與切分后的屬性值的相似度得出與目標屬性值相近的屬性包括:分別計算訓練頁面中各文本行與切分后的屬性值的相似度;選擇出相似度最高的一個或多個文本行;分別判斷一個或多個文本行的相似度是否大于預設閾值,并且將一個或多個文本行與各自相鄰的文本行進行結合,判斷結合后的文本對切分后的屬性值的相似度是否增大;選擇以上判斷結果均為是的文本行作為與目標屬性值相近的屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310385373.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:跨媒體稀疏哈希索引方法
- 下一篇:產品說明的查詢方法、裝置、系統及客戶端





