[發明專利]網頁正文提取的方法和裝置在審
| 申請號: | 201410816975.1 | 申請日: | 2014-12-23 |
| 公開(公告)號: | CN104462532A | 公開(公告)日: | 2015-03-25 |
| 發明(設計)人: | 鄒月明;徐銳波 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 王增鑫 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 正文 提取 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,具體而言,本發明涉及一種網頁正文提取的方法和裝置。
背景技術
隨著網絡技術的不斷發展,互聯網已成為信息的主要來源,但是,目前互聯網中的重復內容、廣告內容及無意義內容等無效信息越來越多,而有效信息在網頁中所占比重越來越少,使得人們通過互聯網如搜索引擎獲取其所需的有效信息的效率大幅降低。因此,需要使用自動化的方法對網頁中的無效信息進行過濾,提取用戶真正需要的網頁正文內容,將網頁正文內容提供至用戶。
現有的網頁正文提取方式,主要是將網頁的HTML文件解析為DOM樹,再從DOM樹中選取路徑較長的DOM路徑,提取該DOM路徑下的文本信息作為網頁正文。但是這種基于DOM樹解析的網頁正文提取方式,對無法解析成DOM樹的部分不規則的網頁則無法提取其網頁正文,對廣告內容較多的網頁的提取準確率也相對較低;同時,由于需要對HTML文件進行復雜度相對較高的DOM樹解析,導致網頁正文提取過程耗時較長,網頁正文的提取效率較低。
發明內容
本發明的目的旨在至少解決上述技術缺陷之一,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種網頁正文提取的方法,其特征在于,包括:
提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息;
基于路徑信息對待處理標簽分組,以確定多個標簽組;
計算每一標簽組包括的有效文本信息的有效長度信息,以及每一標簽組內每一待處理標簽的平均有效長度信息;
基于平均有效長度信息,對每一標簽組內的多個待處理標簽進行排序,確定每一標簽組內排序前預定位置的多個第一候選標簽;
基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍,提取候選標簽范圍中的文本信息。
本發明還提供了一種網頁正文提取的裝置,其特征在于,包括:
路徑提取模塊,用于提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息;
分組模塊,用于基于路徑信息對待處理標簽分組,以確定多個標簽組;
計算模塊,用于計算每一標簽組包括的有效文本信息的有效長度信息,以及每一標簽組內每一待處理標簽的平均有效長度信息;
排序模塊,用于基于平均有效長度信息,對每一標簽組內的多個待處理標簽進行排序,確定每一標簽組內排序前預定位置的多個第一候選標簽;
文本提取模塊,用于基于每個標簽組包括的多個第一候選標簽所確定候選標簽范圍,提取候選標簽范圍中的文本信息。
本發明的實施例中,通過提取并記錄網頁HTML文件中的包括的標簽及標簽路徑,對多個標簽進行多次的分析篩選來確定候選標簽范圍,最終從候選標簽范圍中提取文本信息即為網頁正文。通過本方案的方法能夠快速、準確地抽取各種類型網頁的正文內容,由于基于完整健全的標簽分析篩選方法,即使是對無效內容非常多的廣告類網頁,也具有較高的正文提取準確率,即本方案的方法不受網頁類型的限制;進一步地,由于本方案的網頁正文提取方法無需將網頁的HTML文件解析成DOM樹,由于不需要相對復雜的DOM樹解析過程,極大地提高了正文提取效率。進一步地,本發明的實施例可以用于新聞、小說、影視網頁、音樂網頁等搜索領域,也可以結合搜索引擎蜘蛛,爬蟲等網頁抓取技術用于自動提取網頁正文信息的服務器或者系統中,通過提取較為準確的提取網頁正文信息,從而可實現向用戶提供濾除無效信息的各類網頁正文內容。
本發明附加的方面和優點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發明的實踐了解到。
附圖說明
本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為本發明中的網頁正文提取的方法一個實施例的流程圖;
圖2為本發明中的網頁正文提取的方法一個優選實施例的流程圖;
圖3為本發明中的網頁正文提取的裝置一個實施例的結構示意圖;
圖4為本發明中的網頁正文提取的裝置一個優選實施例的結構示意圖。
具體實施方式
下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410816975.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據對賬方法、裝置和系統
- 下一篇:基于移動終端的網頁圖片瀏覽方法及裝置





