[發明專利]網頁正文提取的方法和裝置在審

申請號：	201410816975.1	申請日：	2014-12-23
公開（公告）號：	CN104462532A	公開（公告）日：	2015-03-25
發明（設計）人：	鄒月明;徐銳波	申請（專利權）人：	北京奇虎科技有限公司;奇智軟件（北京）有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京市立方律師事務所 11330	代理人：	王增鑫
地址：	100088 北京市西城區新***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網頁正文提取方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種網頁正文提取的方法，其特征在于，包括：

提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息；

基于所述路徑信息對所述待處理標簽分組，以確定多個標簽組；

計算每一標簽組包括的有效文本信息的有效長度信息，以及每一標簽組內每一待處理標簽的平均有效長度信息；

基于所述平均有效長度信息，對每一標簽組內的多個待處理標簽進行排序，確定每一標簽組內排序前預定位置的多個第一候選標簽；

基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍，提取所述候選標簽范圍中的文本信息。

2.根據權利要求1所述的網頁正文提取的方法，其特征在于，提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息，包括：

提取網頁中包括的全部標簽，將所述全部標簽中包括的預定忽略標簽進行刪除，確定網頁中包括的待處理標簽；

提取并記錄每個待處理標簽所處路徑的路徑信息。

3.根據權利要求1或2所述的網頁正文提取的方法，其特征在于，基于所述路徑信息對所述待處理標簽分組，包括：

將處于同一路徑的待處理標簽分至同一組。

4.根據權利要求1-3中任一項所述的網頁正文提取的方法，其特征在于，計算每一標簽組內每一待處理標簽的平均有效長度信息，具體包括：

根據每一標簽組的有效長度信息及該標簽組內每一待處理標簽所處路徑的標簽個數，計算每一標簽組內每一待處理標簽的平均有效長度信息。

5.根據權利要求1-4中任一項所述的網頁正文提取的方法，其特征在于，對每一標簽組內的多個待處理標簽進行排序，還包括：

判斷每一標簽組內多個待處理標簽包括的文本信息中是否包括預定模板類文本信息；

當判斷任一待處理標簽包括所述預定模板類文本信息時，將該待處理標簽按照預定降序規則降低其排序位置。

6.根據權利要求1-5中任一項所述的網頁正文提取的方法，其特征在于，對每一標簽組內的多個待處理標簽進行排序，還包括：

判斷每一標簽組內多個待處理標簽是否包括預定連續格式標簽；

當判斷多個待處理標簽包括所述預定連續格式標簽時，將該預定連續格式待處理標簽的按照預定降序規則降低其排序位置。

7.根據權利要求1-6中任一項所述的網頁正文提取的方法，其特征在于，基于每個標簽組包括的所述多個第一候選標簽所確定候選標簽范圍，包括：

提取所述多個第一候選標簽所在位置的預定上下文范圍內的多個第二候選標簽；

根據所述第一候選標簽和第二候選標簽確定候選標簽范圍。

8.一種抽取新聞類或小說類網頁中新聞或小說正文內容的方法，其特征在于，包括：

提取并記錄新聞類或小說類網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息；

基于所述路徑信息對所述待處理標簽分組，以確定多個標簽組；

計算每一標簽組包括的有效文本信息的有效長度信息，以及每一標簽組內每一待處理標簽的平均有效長度信息；

基于所述平均有效長度信息，對每一標簽組內的多個待處理標簽進行排序，確定每一標簽組內排序前預定位置的多個第一候選標簽；

基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍，提取所述候選標簽范圍中的新聞或小說正文信息。

9.一種網頁正文提取的裝置，其特征在于，包括：

路徑提取模塊，用于提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息；

分組模塊，用于基于所述路徑信息對所述待處理標簽分組，以確定多個標簽組；

計算模塊，用于計算每一標簽組包括的有效文本信息的有效長度信息，以及每一標簽組內每一待處理標簽的平均有效長度信息；

排序模塊，用于基于所述平均有效長度信息，對每一標簽組內的多個待處理標簽進行排序，確定每一標簽組內排序前預定位置的多個第一候選標簽；

文本提取模塊，用于基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍，提取所述候選標簽范圍中的文本信息。

10.一種網頁提取服務器，其特征在于，包括：

網頁獲取模塊，用于從新聞網站或小說網站提供的數據接口中獲取新聞類網頁或者小說類網頁；

網頁正文提取模塊，用于從所述新聞類網頁或者小說類網頁中提取新聞類網頁或者小說類網頁的網頁正文信息；其中，提取新聞類網頁或者小說類網頁的網頁正文信息，具體包括：

提取并記錄新聞類或小說類網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息；

基于所述路徑信息對所述待處理標簽分組，以確定多個標簽組；

計算每一標簽組包括的有效文本信息的有效長度信息，以及每一標簽組內每一待處理標簽的平均有效長度信息；

基于所述平均有效長度信息，對每一標簽組內的多個待處理標簽進行排序，確定每一標簽組內排序前預定位置的多個第一候選標簽；

基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍，提取所述候選標簽范圍中的新聞或小說正文信息；

網頁正文提供模塊，用于當接收來自用戶設備發送新聞信息或小說信息獲取請求時，響應于所述新聞信息或小說信息獲取請求，將與所述新聞信息或小說信息獲取請求相匹配的新聞或小說正文信息反饋至所述用戶設備。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件（北京）有限公司，未經北京奇虎科技有限公司;奇智軟件（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410816975.1/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種數據對賬方法、裝置和系統
下一篇：基于移動終端的網頁圖片瀏覽方法及裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】