[發明專利]一種Web文本的自動提取方法在審
| 申請號: | 201710344170.5 | 申請日: | 2017-05-16 |
| 公開(公告)號: | CN108509468A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 姚國平 | 申請(專利權)人: | 蘇州純青智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 北京華識知識產權代理有限公司 11530 | 代理人: | 陳敏 |
| 地址: | 215400 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件夾 自動提取 保存 過濾 網頁處理模塊 文本信息提取 自動數據采集 工作效率 網頁分析 網頁模塊 文本挖掘 文本信息 指定文件 資源整理 資源重組 輸入欄 有效地 遍歷 網址 下載 匹配 名字 | ||
本發明提出了一種Web文本的自動提取方法,包括以下步驟:用戶在輸入欄輸入網址,通過獲取網頁模塊和網頁處理模塊的作用從Internet中下載相應的Web頁面,并且按照Web頁面的名字,保存在當前路徑下html文件夾中,以供網頁分析時使用;提取文本信息模塊在當前路徑下html文件夾中的所有html文件遍歷一遍,并且將html文件中的文本信息提取出來,進行第一次過濾,將第一次過濾后的Web文本保存在指定文件中,最后將文件夾的文件用關鍵字進行匹配,將最終的結果存放在achieve.txt中保存。本發明提出的方案,能將Web內容挖掘工作簡化為文本挖掘,實現Web文本的自動提取,有效地提高了對資源整理和資源重組的工作效率,對自動數據采集的發展做出了一定貢獻。
技術領域
本發明涉及數據采集技術,具體涉及一種Web文本的自動提取方法。
背景技術
隨著網絡資源的不斷豐富和網絡信息量的不斷膨脹,人們對網絡的依賴性越來越強,卻也給服務對象從浩如煙海的互聯網資源中快速找到自己所需的特定資源帶來了不便;信息自古就有無限的價值,隨著時代的不斷發展,人類不知不覺已經來到了信息時代,各行各業都充斥了無數的信息,而信息的價值就在于數據的流通,如果數據能夠及時的流通和傳遞起來,才能發揮信息真正的不可比擬的價值;在市場經濟條件下,采集數據已經成為重要的工具和手段。
如何從海量信息中收集有價值的數據并進行分析研究,形成企業各種決策的依據,是數據采集人員及市場研究人員所面臨的一個問題;要從大量的數據中迅速的找到并獲得自己所需要的信息和服務,變得越來越困難,服務對象在查詢信息時往往會迷失他們的目標或者是得到一些比較偏頗的結果;數據必須經過匯總、整合、分析才能產生價值,零散的信息只能是新聞性的,無法體現真正的商業價值;對于企業以及信息分析人員來說,一方面要在大量的信息中過濾出有效的價值點,同時又要降低獲取相應信息的成本,使信息的實際使用價值大于收集、分析信息等過程所產生的成本,使信息為企業的決策帶來增值價值。
因此,針對上述問題,本發明提出了一種新技術方案。
發明內容
本發明的目的是提供一種可實現將網頁內容轉化成關于Web頁面內容的純文本文件,過濾網頁的格式控制符,能有效地對資源整理和信息重組的Web文本的自動提取方法。
本發明是通過以下技術方案來實現的:
一種Web文本的自動提取方法,包括以下步驟:
用戶在輸入欄輸入網址,通過獲取網頁模塊和網頁處理模塊的作用從Internet中下載相應的Web頁面,并且按照Web頁面的名字,保存在當前路徑下html文件夾中,以供網頁分析時使用;
提取文本信息模塊在當前路徑下html文件夾中的所有html文件遍歷一遍,并且將html文件中的文本信息提取出來,進行第一次過濾,將第一次過濾后的Web文本保存在指定文件中,最后將文件夾的文件用關鍵字進行匹配,將最終的結果存放在achieve.txt中保存。
進一步地,所述獲取網頁模塊的操作流程包括以下步驟:
用戶在輸入欄輸入網址后,將網頁以文件的序號進行存儲,然后獲取文件個數,將文件個數改為字符號,修改網頁名字,讀取網頁,再生成TXT文件。
進一步地,所述網頁處理模塊的操作流程包括以下步驟:
獲取網頁模塊將網頁生成TXT文件后,掃描文件夾中的文件數量,并逐個把文件的名字記錄下來,再逐個對文件進行網頁提取,過濾掉其中的html語言標記,最后將提取后的信息寫入文本。
進一步地,網頁的獲取使用C++中自帶的網絡編程類。
進一步地,文件夾中文件的遍歷采用MFC中自帶的FileFinder類實現對文件的遍歷和文件的刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州純青智能科技有限公司,未經蘇州純青智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710344170.5/2.html,轉載請聲明來源鉆瓜專利網。





