[發明專利]網頁正文提取的方法和裝置在審
| 申請號: | 201410816975.1 | 申請日: | 2014-12-23 |
| 公開(公告)號: | CN104462532A | 公開(公告)日: | 2015-03-25 |
| 發明(設計)人: | 鄒月明;徐銳波 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 王增鑫 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 正文 提取 方法 裝置 | ||
1.一種網頁正文提取的方法,其特征在于,包括:
提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息;
基于所述路徑信息對所述待處理標簽分組,以確定多個標簽組;
計算每一標簽組包括的有效文本信息的有效長度信息,以及每一標簽組內每一待處理標簽的平均有效長度信息;
基于所述平均有效長度信息,對每一標簽組內的多個待處理標簽進行排序,確定每一標簽組內排序前預定位置的多個第一候選標簽;
基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍,提取所述候選標簽范圍中的文本信息。
2.根據權利要求1所述的網頁正文提取的方法,其特征在于,提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息,包括:
提取網頁中包括的全部標簽,將所述全部標簽中包括的預定忽略標簽進行刪除,確定網頁中包括的待處理標簽;
提取并記錄每個待處理標簽所處路徑的路徑信息。
3.根據權利要求1或2所述的網頁正文提取的方法,其特征在于,基于所述路徑信息對所述待處理標簽分組,包括:
將處于同一路徑的待處理標簽分至同一組。
4.根據權利要求1-3中任一項所述的網頁正文提取的方法,其特征在于,計算每一標簽組內每一待處理標簽的平均有效長度信息,具體包括:
根據每一標簽組的有效長度信息及該標簽組內每一待處理標簽所處路徑的標簽個數,計算每一標簽組內每一待處理標簽的平均有效長度信息。
5.根據權利要求1-4中任一項所述的網頁正文提取的方法,其特征在于,對每一標簽組內的多個待處理標簽進行排序,還包括:
判斷每一標簽組內多個待處理標簽包括的文本信息中是否包括預定模板類文本信息;
當判斷任一待處理標簽包括所述預定模板類文本信息時,將該待處理標簽按照預定降序規則降低其排序位置。
6.根據權利要求1-5中任一項所述的網頁正文提取的方法,其特征在于,對每一標簽組內的多個待處理標簽進行排序,還包括:
判斷每一標簽組內多個待處理標簽是否包括預定連續格式標簽;
當判斷多個待處理標簽包括所述預定連續格式標簽時,將該預定連續格式待處理標簽的按照預定降序規則降低其排序位置。
7.根據權利要求1-6中任一項所述的網頁正文提取的方法,其特征在于,基于每個標簽組包括的所述多個第一候選標簽所確定候選標簽范圍,包括:
提取所述多個第一候選標簽所在位置的預定上下文范圍內的多個第二候選標簽;
根據所述第一候選標簽和第二候選標簽確定候選標簽范圍。
8.一種抽取新聞類或小說類網頁中新聞或小說正文內容的方法,其特征在于,包括:
提取并記錄新聞類或小說類網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息;
基于所述路徑信息對所述待處理標簽分組,以確定多個標簽組;
計算每一標簽組包括的有效文本信息的有效長度信息,以及每一標簽組內每一待處理標簽的平均有效長度信息;
基于所述平均有效長度信息,對每一標簽組內的多個待處理標簽進行排序,確定每一標簽組內排序前預定位置的多個第一候選標簽;
基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍,提取所述候選標簽范圍中的新聞或小說正文信息。
9.一種網頁正文提取的裝置,其特征在于,包括:
路徑提取模塊,用于提取并記錄網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息;
分組模塊,用于基于所述路徑信息對所述待處理標簽分組,以確定多個標簽組;
計算模塊,用于計算每一標簽組包括的有效文本信息的有效長度信息,以及每一標簽組內每一待處理標簽的平均有效長度信息;
排序模塊,用于基于所述平均有效長度信息,對每一標簽組內的多個待處理標簽進行排序,確定每一標簽組內排序前預定位置的多個第一候選標簽;
文本提取模塊,用于基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍,提取所述候選標簽范圍中的文本信息。
10.一種網頁提取服務器,其特征在于,包括:
網頁獲取模塊,用于從新聞網站或小說網站提供的數據接口中獲取新聞類網頁或者小說類網頁;
網頁正文提取模塊,用于從所述新聞類網頁或者小說類網頁中提取新聞類網頁或者小說類網頁的網頁正文信息;其中,提取新聞類網頁或者小說類網頁的網頁正文信息,具體包括:
提取并記錄新聞類或小說類網頁中包括的待處理標簽及每個待處理標簽所處路徑的路徑信息;
基于所述路徑信息對所述待處理標簽分組,以確定多個標簽組;
計算每一標簽組包括的有效文本信息的有效長度信息,以及每一標簽組內每一待處理標簽的平均有效長度信息;
基于所述平均有效長度信息,對每一標簽組內的多個待處理標簽進行排序,確定每一標簽組內排序前預定位置的多個第一候選標簽;
基于每個標簽組包括的所述多個第一候選標簽確定候選標簽范圍,提取所述候選標簽范圍中的新聞或小說正文信息;
網頁正文提供模塊,用于當接收來自用戶設備發送新聞信息或小說信息獲取請求時,響應于所述新聞信息或小說信息獲取請求,將與所述新聞信息或小說信息獲取請求相匹配的新聞或小說正文信息反饋至所述用戶設備。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410816975.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據對賬方法、裝置和系統
- 下一篇:基于移動終端的網頁圖片瀏覽方法及裝置





