[發明專利]網頁內文抽取方法在審

申請號：	202011014406.7	申請日：	2020-09-24
公開（公告）號：	CN114254231A	公開（公告）日：	2022-03-29
發明（設計）人：	湯珮茹;陳宜均	申請（專利權）人：	臺達電子工業股份有限公司
主分類號：	G06F16/958	分類號：	G06F16/958;G06V30/41
代理公司：	隆天知識產權代理有限公司 72003	代理人：	黃艷
地址：	中國臺***	國省代碼：	臺灣;71
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網頁內文抽取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種網頁內文抽取方法，運用于電子裝置并且包括：取得特定網頁的網頁截圖及網頁原始碼；對網頁截圖進行辨識，以取得至少一個目標區塊在網頁截圖中的位置，其中所述目標區塊至少包括特定文字內容；對目標區塊執行字元辨識處理，以取得所述特定文字內容；及，將特定文字內容與網頁原始碼的內容進行比對以取得與所述特定文字內容的相似度最高的特定原始碼內文，并輸出所述特定原始碼內文以作為特定網頁的網頁內文。

技術領域

本發明涉及一種內文抽取方法，尤其涉及一種網頁的內文的抽取方法。

背景技術

隨著網際網絡的普及化，人們可在網絡上進行各種數據的編寫、交換與傳播，使得網絡上存在著相當豐富的數據，進而成為大數據分析的主要數據來源。

為了能夠自動、有效且大量地搜集網絡數據，進而能夠對數據進行分析，并直接影響輿情分析結果，網頁內容的抽取技術因應而生。

目前常見的網頁抽取技術主要包括規則式抽取方法和機器學習式抽取方法這兩大類。規則式抽取方式需要針對不同的網頁分別撰寫對應的腳本，而不同結構的網頁就必須制定不同的抽取規則并撰寫不同的腳本，不但耗費時間，也無法被廣泛使用。

至于機器學習式抽取方法，常會因為網頁中存在著內文以外的大量文字(例如廣告、推薦文章等)、內文的來源網頁的數量過多、每一個網頁的特征皆不相同、難以定義出每個網頁都符合的規則等因素，使得通過演算法來直接抽取網頁內文的效果相當不穩定。

有鑒于此，為了能夠更有效率且更精準地搜集網絡數據以因應大數據技術的分析需求，現有的網頁內文抽取技術實有加以改良的必要與急迫性。

發明內容

本發明的主要目的，在于提供一種網頁內文抽取方法，可通過至少兩條不同的路徑來分別取得網頁內文并且互相比對，以確保最終得到的網頁內文的正確性。

為了實現上述目的，本發明的網頁內文抽取方法主要是運用于一電子裝置，并且至少包括下列步驟：取得一特定網頁的一網頁截圖及一網頁原始碼；通過一物件檢測模塊對該網頁截圖進行辨識，以取得至少一個目標區塊在該網頁截圖中的位置，其中該目標區塊至少包括一特定文字內容；通過一文字辨識模塊對該目標區塊執行一字元辨識處理，以取得該特定文字內容；及，通過一文字比對模塊將該特定文字內容與該網頁原始碼的內容進行比對以取得與該特定文字內容的相似度最高的一特定原始碼內文，并輸出該特定原始碼內文以作為該特定網頁的一網頁內文。

本發明相對于相關技術所能達到的技術效果在于，通過網頁截圖以及網頁原始碼來分別取得一筆抽取數據，再經由比對兩筆抽取數據來得到最終的網頁內文，因此可以提升網頁內文的精確度。并且，本發明可以從單一個網頁中直接抽取并輸出所需的網頁內文，不需要檢索與參考其他網頁的內容，因此可以有效節省抽取時間。

如上所述，本發明是先通過兩條不同的路徑取得兩筆不同的抽取數據，再通過比對這兩筆抽取數據以決定并輸出最終的網頁內文，因此可以使用誤差范圍較大的辨識模塊，進而允許以極少量的數據來訓練要使用的辨識模塊。并且，本發明的抽取方法不需要由使用者來自訂抽取規則，因此對于不同的網頁也具有泛用性。

附圖說明

圖1為本發明的抽取系統的方框圖的第一具體實施例。

圖2為本發明的抽取方法流程圖的第一具體實施例。

圖3為特定網頁的示意圖。

圖4為本發明的目標區塊示意圖的第一具體實施例。

圖5A為標題截圖的第一具體實施例。

圖5B為內文截圖的第一具體實施例。

圖6為本發明的網頁原始碼比對流程圖的第一具體實施例。

圖7為網頁原始碼的示意圖。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。