[發(fā)明專利]一種Web文本的自動提取方法在審
| 申請?zhí)枺?/td> | 201710344170.5 | 申請日: | 2017-05-16 |
| 公開(公告)號: | CN108509468A | 公開(公告)日: | 2018-09-07 |
| 發(fā)明(設(shè)計)人: | 姚國平 | 申請(專利權(quán))人: | 蘇州純青智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 北京華識知識產(chǎn)權(quán)代理有限公司 11530 | 代理人: | 陳敏 |
| 地址: | 215400 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文件夾 自動提取 保存 過濾 網(wǎng)頁處理模塊 文本信息提取 自動數(shù)據(jù)采集 工作效率 網(wǎng)頁分析 網(wǎng)頁模塊 文本挖掘 文本信息 指定文件 資源整理 資源重組 輸入欄 有效地 遍歷 網(wǎng)址 下載 匹配 名字 | ||
1.一種Web文本的自動提取方法,其特征在于:包括以下步驟:
用戶在輸入欄輸入網(wǎng)址,通過獲取網(wǎng)頁模塊和網(wǎng)頁處理模塊的作用從Internet中下載相應(yīng)的Web頁面,并且按照Web頁面的名字,保存在當(dāng)前路徑下html文件夾中,以供網(wǎng)頁分析時使用;
提取文本信息模塊在當(dāng)前路徑下html文件夾中的所有html文件遍歷一遍,并且將html文件中的文本信息提取出來,進行第一次過濾,將第一次過濾后的Web文本保存在指定文件中,最后將文件夾的文件用關(guān)鍵字進行匹配,將最終的結(jié)果存放在achieve.txt中保存。
2.根據(jù)權(quán)利要求1所述一種Web文本的自動提取方法,其特征在于:所述獲取網(wǎng)頁模塊的操作流程包括以下步驟:
用戶在輸入欄輸入網(wǎng)址后,將網(wǎng)頁以文件的序號進行存儲,然后獲取文件個數(shù),將文件個數(shù)改為字符號,修改網(wǎng)頁名字,讀取網(wǎng)頁,再生成TXT文件。
3.根據(jù)權(quán)利要求1所述一種Web文本的自動提取方法,其特征在于:所述網(wǎng)頁處理模塊的操作流程包括以下步驟:
獲取網(wǎng)頁模塊將網(wǎng)頁生成TXT文件后,掃描文件夾中的文件數(shù)量,并逐個把文件的名字記錄下來,再逐個對文件進行網(wǎng)頁提取,過濾掉其中的html語言標記,最后將提取后的信息寫入文本。
4.根據(jù)權(quán)利要求1所述一種Web文本的自動提取方法,其特征在于:網(wǎng)頁的獲取使用C++中自帶的網(wǎng)絡(luò)編程類。
5.根據(jù)權(quán)利要求1所述一種Web文本的自動提取方法,其特征在于:文件夾中文件的遍歷采用MFC中自帶的FileFinder類實現(xiàn)對文件的遍歷和文件的刪除。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州純青智能科技有限公司,未經(jīng)蘇州純青智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710344170.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





