[發明專利]一種網頁信息提取方法及其設備在審
| 申請號: | 201510815150.2 | 申請日: | 2015-11-20 |
| 公開(公告)號: | CN105468730A | 公開(公告)日: | 2016-04-06 |
| 發明(設計)人: | 陳仕明 | 申請(專利權)人: | 廣州華多網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 511442 廣東省廣州市番禺區南村鎮萬*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 信息 提取 方法 及其 設備 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種網頁信息提取方法及其設備。
背景技術
隨著互聯網技術的發展,現如今互聯網中所包含的網頁信息越來越多,許多開發的項目均需要通過外站網頁對部分網頁信息進行提取,現有的網頁信息提取方式是通過正則表達式對獲取的超級文本標記語言(HyperTextMarkupLanguage,HTML)內容進行分析獲取,由于正則表達式的結構復雜,因而增加了定義網頁信息提取的規則的復雜度,增加了開發成本。
發明內容
本發明實施例提供一種網頁信息提取方法及其設備,可以降低定義網頁信息提取的規則的復雜度,降低開發成本。
本發明實施例第一方面提供了一種網頁信息提取方法,可包括:
獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息;
根據所述特征描述信息生成與所述網頁信息相關聯的信息提取表達式,所述信息提取表達式為JQuery表達式;
采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息。
本發明實施例第二方面提供了一種網頁信息提取設備,可包括:
信息獲取單元,用于獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息;
表達式生成單元,用于根據所述特征描述信息生成與所述網頁信息相關聯的信息提取表達式,所述信息提取表達式為JQuery表達式;
信息提取單元,用于采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息。
在本發明實施例中,通過獲取所輸入的網頁地址對應的網頁源文件,在網頁源文件中獲取待提取的網頁信息對應的特征描述信息,再根據特征描述信息生成與網頁信息相關聯的JQuery的信息提取表達式,最終采用嵌入式瀏覽器加載網頁地址對應的網頁源文件,并調用信息提取表達式在網頁源文件加載完成后提取網頁信息。通過采用嵌入式瀏覽器執行JQuery的信息提取表達式以實現網頁信息提取的過程,替代了采用正則表達式進行提取的過程,簡化了表達式的結構,進而降低了定義網頁信息提取的規則的復雜度,并降低了開發成本。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明實施例提供的一種網頁信息提取方法的流程示意圖;
圖2是本發明實施例提供的另一種網頁信息提取方法的流程示意圖;
圖3是本發明實施例提供的一種網頁信息提取設備的結構示意圖;
圖4是本發明實施例提供的信息獲取單元的結構示意圖;
圖5是本發明實施例提供的另一種網頁信息提取設備的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
本發明實施例提供的網頁信息提取方法可以應用于互聯網的網頁中網頁信息提取的場景,例如:網頁信息提取設備獲取所輸入的網頁地址對應的網頁源文件,并在所述網頁源文件中獲取待提取的網頁信息對應的特征描述信息,所述網頁信息提取設備根據所述特征描述信息生成與所述網頁信息相關聯的信息提取表達式,所述信息提取表達式為JQuery表達式,所述網頁信息提取設備采用嵌入式瀏覽器加載所述網頁地址對應的網頁源文件,并調用所述信息提取表達式在所述網頁源文件加載完成后提取所述網頁信息的場景等。通過采用嵌入式瀏覽器執行JQuery的信息提取表達式以實現網頁信息提取的過程,替代了采用正則表達式進行提取的過程,簡化了表達式的結構,進而降低了定義網頁信息提取的規則的復雜度,并降低了開發成本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州華多網絡科技有限公司,未經廣州華多網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510815150.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





