[發(fā)明專利]一種網(wǎng)絡數(shù)據(jù)解析方法與裝置有效
| 申請?zhí)枺?/td> | 201210325704.7 | 申請日: | 2012-09-06 |
| 公開(公告)號: | CN102902723A | 公開(公告)日: | 2013-01-30 |
| 發(fā)明(設計)人: | 武偉;劉生權 | 申請(專利權)人: | 北京北森測評技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網(wǎng)絡 數(shù)據(jù) 解析 方法 裝置 | ||
技術領域
本發(fā)明涉及電子信息領域,尤其涉及一種網(wǎng)絡數(shù)據(jù)解析方法與裝置。
背景技術
隨著互聯(lián)網(wǎng)的廣泛普及,使對網(wǎng)絡數(shù)據(jù)的應用需求愈來愈大,這就特別需要一個能正確解析出其內(nèi)容并轉(zhuǎn)成統(tǒng)一格式的工具。這個工具的關鍵技術就在數(shù)據(jù)解析上。
目前對網(wǎng)絡數(shù)據(jù)的解析技術,特別是對半結構化網(wǎng)頁格式的網(wǎng)絡數(shù)據(jù)的解析技術,主要使用的方法是使用正則表達式匹配關鍵字提取相關內(nèi)容。但這種技術在實際應用過程中存在一些不足的地方,由于該技術過分依賴于網(wǎng)頁中關鍵字及HTML(Hyper?Text?Mark-up?Language,超文本標記語言標簽),需要將整個網(wǎng)頁進行掃描,同時網(wǎng)頁的頁面改動對現(xiàn)在規(guī)則影響較大。每次的網(wǎng)頁改動都需要開發(fā)人員去分析網(wǎng)頁,然后重寫編寫新的匹配規(guī)則,再測試,再發(fā)布使用,因此該方式造成解析效率低、不靈活、成本過高。
在現(xiàn)有技術中,對網(wǎng)絡數(shù)據(jù)的解析技術存在解析效率低、成本過高的問題,對于該問題,目前尚未提出有效解決方案。
發(fā)明內(nèi)容
本發(fā)明的主要目的是提供一種網(wǎng)絡數(shù)據(jù)解析方法與裝置,以解決現(xiàn)有技術中網(wǎng)絡數(shù)據(jù)的解析技術存在解析效率低、成本過高的問題。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)絡數(shù)據(jù)解析方法。
本發(fā)明的網(wǎng)絡數(shù)據(jù)解析方法包括:根據(jù)網(wǎng)頁的XPATH(XML路徑語言)路徑中的網(wǎng)絡數(shù)據(jù)路徑與其對應的關鍵字路徑的相對位置關系,生成該網(wǎng)頁中網(wǎng)絡數(shù)據(jù)的解析規(guī)則;對所要解析的網(wǎng)絡數(shù)據(jù)對應的關鍵字進行匹配,查找到該關鍵字的當前路徑;根據(jù)解析規(guī)則和查找到的關鍵字的當前路徑,定位所要解析的網(wǎng)絡數(shù)據(jù)的位置;根據(jù)所定位的所要解析的網(wǎng)絡數(shù)據(jù)的位置提取出所要解析的網(wǎng)絡數(shù)據(jù)。
進一步地,對所要解析的網(wǎng)絡數(shù)據(jù)對應的關鍵字進行匹配之前還包括:先匹配出所要解析的網(wǎng)絡數(shù)據(jù)所在的區(qū)域關鍵字;通過區(qū)域關鍵字找到所要解析的網(wǎng)絡數(shù)據(jù)所在的區(qū)塊。
進一步地,對于所要解析的網(wǎng)絡數(shù)據(jù)所在節(jié)點包含關鍵字的解析業(yè)務,解析出所要解析的網(wǎng)絡數(shù)據(jù)之前還包括:根據(jù)所要解析的網(wǎng)絡數(shù)據(jù)在其所在節(jié)點中的位置和/或該網(wǎng)絡數(shù)據(jù)的內(nèi)容,制定所要解析的網(wǎng)絡數(shù)據(jù)的提取規(guī)則。
進一步地,生成該網(wǎng)頁中網(wǎng)絡數(shù)據(jù)的解析規(guī)則之前還包括:根據(jù)網(wǎng)頁中的DOM(DocumentObject?Model,文檔對象模型)結構,生成該網(wǎng)頁的XPATH路徑。
根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡數(shù)據(jù)解析裝置。
本發(fā)明的網(wǎng)絡數(shù)據(jù)解析裝置包括:解析規(guī)則生成模塊,用于根據(jù)網(wǎng)頁的XPATH路徑中的網(wǎng)絡數(shù)據(jù)路徑與其對應的關鍵字路徑的相對位置關系,生成該網(wǎng)頁中網(wǎng)絡數(shù)據(jù)的解析規(guī)則;關鍵字匹配模塊,用于對所要解析的網(wǎng)絡數(shù)據(jù)對應的關鍵字進行匹配,查找到該關鍵字的當前路徑;定位模塊,用于根據(jù)解析規(guī)則和查找到的關鍵字的當前路徑,定位所要解析的網(wǎng)絡數(shù)據(jù)的位置;提取模塊,用于根據(jù)所定位的所要解析的網(wǎng)絡數(shù)據(jù)的位置提取出所要解析的網(wǎng)絡數(shù)據(jù)。
進一步地,裝置還包括:區(qū)域匹配模塊,用于對所要解析的網(wǎng)絡數(shù)據(jù)對應的關鍵字進行匹配之前,先匹配出所要解析的網(wǎng)絡數(shù)據(jù)所在的區(qū)域關鍵字;查找模塊,用于通過區(qū)域關鍵字找到所要解析的網(wǎng)絡數(shù)據(jù)所在的區(qū)塊。
進一步地,裝置還包括:提取規(guī)則制定模塊,用于對于所要解析的網(wǎng)絡數(shù)據(jù)所在節(jié)點包含關鍵字的解析業(yè)務,解析出所要解析的網(wǎng)絡數(shù)據(jù)之前,根據(jù)所要解析的網(wǎng)絡數(shù)據(jù)在其所在節(jié)點中的位置和/或該網(wǎng)絡數(shù)據(jù)的內(nèi)容,制定所要解析的網(wǎng)絡數(shù)據(jù)的提取規(guī)則。
進一步地,裝置還包括:路徑生成模塊,用于根據(jù)網(wǎng)頁中的DOM結構,生成該網(wǎng)頁的XPATH路徑。
根據(jù)本發(fā)明的技術方案,通過設置解析項與其對應的關鍵字的相對位置有關的解析規(guī)則,并且通過關鍵字匹配的方式定位關鍵字的當前動態(tài)路徑,大大提高了解析的效率,降低了人力和維護成本。
附圖說明
說明書附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的網(wǎng)絡數(shù)據(jù)解析方法的主要步驟的流程圖;
圖2是本發(fā)明實施例的網(wǎng)絡數(shù)據(jù)解析方法要解析的第一種網(wǎng)頁內(nèi)容的截圖;
圖3是圖2的XPATH路徑截圖;
圖4是本發(fā)明實施例的網(wǎng)絡數(shù)據(jù)解析方法要解析的第二種網(wǎng)頁內(nèi)容的截圖;
圖5是本發(fā)明實施例的網(wǎng)絡數(shù)據(jù)解析方法要解析的第三種網(wǎng)頁內(nèi)容的截圖;
圖6是對圖4中的網(wǎng)絡數(shù)據(jù)提取結果后的截圖;
圖7是本發(fā)明實施例的網(wǎng)絡數(shù)據(jù)解析方法要解析的第四種網(wǎng)頁內(nèi)容的截圖;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北森測評技術有限公司,未經(jīng)北京北森測評技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210325704.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:教學輔助用生物展示裝置
- 下一篇:算數(shù)教具
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





