[發明專利]網頁數據捕獲設備及其網頁數據擷取方法在審
申請號: | 201611000331.0 | 申請日: | 2016-11-14 |
公開(公告)號: | CN108021600A | 公開(公告)日: | 2018-05-11 |
發明(設計)人: | 黃奕翔;邱育賢;蕭暉議 | 申請(專利權)人: | 財團法人資訊工業策進會 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 徐偉 |
地址: | 中國臺灣臺北市1*** | 國省代碼: | 暫無信息 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 網頁 數據 捕獲 設備 及其 擷取 方法 | ||
一種網頁數據捕獲設備及其網頁數據擷取方法。網頁數據捕獲設備執行:根據網頁數據的URL的地址關聯性,將網頁數據分為URL群組;自URL群組的網頁數據中挑選第一網頁數據以及第二網頁數據;解析第一網頁數據以及第二網頁數據得網頁節點數據集合;根據網頁節點數據集合的網頁節點數據的XML路徑語言的路徑關聯性以及文字內容的文字關聯性,將網頁節點數據集合的網頁節點數據分為多個網頁節點數據群組;分別計算各網頁節點數據群組的一文字內容總和;根據文字內容總和,判斷網頁節點數據群組的主要網頁節點數據群組;根據主要網頁節點數據群組包含的網頁節點數據的XML路徑語言決定網頁主要內容擷取信息。
技術領域
本發明系關于一種網頁數據捕獲設備及其網頁數據擷取方法;更具體而言,本發明系關于一種自動化的網頁數據捕獲設備及其網頁數據擷取方法。
背景技術
隨著因特網應用發展,各式各樣的信息皆可從不同的網頁獲取,因此,當有特定數據分析需求時,便可針對相關網站的網頁,擷取其主要內容后分析處理。
而習知的網頁主要內容擷取方式中,多采人工抓取分析進行,然而,以人工的方式針對不同網站的不同網頁進行主要內容判斷,其效率相當不理想。據此,為提升網頁主要內容擷取效率,便有以客工藝式為主,針對網頁的各種樣板(templates)及其排版(layout)作為訓練數據(training data),進行網頁分析及主要內容擷取的技術。
惟此種客工藝式的方式,僅能針對特定網頁的樣板及排版進行處理,因此,當網頁改版或其語法結構稍微調整,若不針對客工藝式進行相應的調整,將會導致分析及擷取的結果發生明顯錯誤。
更者,因網頁格式排版日趨復雜,因此網頁信息量亦大幅大幅增加,單一網頁的網頁節點(webpage node)可能高達近千個,據此,當網頁的結構或型態發生更動時,客工藝式調整的復雜程度將更顯困難,甚至可能需要重新撰寫客工藝式,如此,同樣導致網頁主要內容判斷的效率不佳。
因此,如何改進習知網頁主要內容擷取效率不佳的缺點,乃業界須共同努力的目標。
發明內容
本發明的主要目的系提供一種用于網頁數據捕獲設備的網頁數據擷取方法。網頁數據捕獲設備自網頁服務器接收多個網頁數據。網頁數據擷取方法包含:(a)令網頁數據捕獲設備根據多個網頁數據的多個統一資源尋址器(uniform resource locator,URL)的地址關聯性,將多個網頁數據分為至少一URL群組。其中,至少一URL群組包含第一URL群組,第一URL群組包含至少部分多個網頁數據;(b)令網頁數據捕獲設備自第一URL群組的部分多個網頁數據中,挑選第一網頁數據以及第二網頁數據;(c)令網頁數據捕獲設備解析第一網頁數據以及第二網頁數據得網頁節點數據集合。其中,網頁節點數據集合包含多個網頁節點數據,各網頁節點數據報含相對應的XML路徑語言(XML Path Language)以及文字內容。
前述網頁數據擷取方法進一步包含:(d)令網頁數據捕獲設備根據網頁節點數據集合的多個網頁節點數據的多個XML路徑語言的路徑關聯性以及多個文字內容的文字關聯性,將網頁節點數據集合的多個網頁節點數據分為多個網頁節點數據群組。其中,各網頁節點數據群組至少包含部分多個網頁節點數據;(e)令網頁數據捕獲設備分別計算各網頁節點數據群組的部分多個網頁節點數據的文字內容總和;(f)令網頁數據捕獲設備根據多個文字內容總和,判斷多個網頁節點數據群組的至少一主要網頁節點數據群組;(g)令網頁數據捕獲設備根據至少一主要網頁節點數據群組包含的部分多個網頁節點數據的多個XML路徑語言,決定網頁主要內容擷取信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于財團法人資訊工業策進會,未經財團法人資訊工業策進會許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611000331.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便攜式海藻標本制作箱
- 下一篇:一種鋁基原位復合材料活塞的嵌鑄方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置