[發明專利]網頁信息收集系統和方法在審
| 申請號: | 202111260682.6 | 申請日: | 2021-10-28 |
| 公開(公告)號: | CN113886673A | 公開(公告)日: | 2022-01-04 |
| 發明(設計)人: | 胡日勒 | 申請(專利權)人: | 鹽城至新達科技有限公司 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/9538;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 224200 江蘇省鹽城市東臺高*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 信息 收集 系統 方法 | ||
本發明提供了一種網頁信息收集系統,包括關鍵詞生成模塊(10),其能夠根據用戶指定的文檔生成關鍵詞;信息收集模塊(20),其用于收集隨附于所述網頁信息的源碼;規則存儲模塊(30),其預設有關鍵詞和網頁信息的源碼的對應規則;數據庫(50),其用于存儲所述關鍵詞和收集到的所述網頁信息和所述源碼;以及判定模塊(40),其基于所述關鍵詞和收集到的所述源碼信息來判斷所述關鍵詞和網頁信息源碼是否符合所述的對應規則,如果符合所述對應規則,則將所述關鍵詞、所述網頁信息和所述源碼對應存入所述數據庫。其能夠較為全面準確的收集所需的網頁信息。本發明還提供了一種網頁信息收集方法。
技術領域
本發明涉及網頁信息收集系統、網頁信息收集方法,特別涉及支援行業構造分析的網頁信息收集系統、網頁信息收集方法。
背景技術
近年來,隨著互聯網的普及,企業、個人將信息向網頁站點公開的情況不斷增加。收集網站上公開的信息(以下,稱為網頁信息)進行營銷策略、企業策略制定越來越多。這就要求對收集到的網頁信息適當地進行分類、整理。由于人工整理成本太高,現有技術中已經出現根據需要整理的目標文件對網站信息進行分類整理的方法。
現有的方法利用網頁信息公開了附加有表示信息的屬性的源碼信息(例如,RDF(Resource Description Framework:資源描述框架)等)進行信息的分類/整理。
為了判定網頁信息是否包含所需的的信息,對內容(文本)進行詞法分析、語法分析,并且與產品信息數據的匹配。但是,經常會發生網頁信息的內容的表現方式、波動、詞法的表記錯誤等,有時無法取得直接相關的信息的情況。
在網頁信息未包括與所需的背景知識的規則時,有時難以判別關聯的信息。由此有時會收集無關的網頁信息,有時無法收集相關的網頁信息。
發明內容
為了解決上述課題,本發明提供了網頁信息收集系統和方法,其能夠較為全面準確的收集所需的網頁信息。
本發明提供的網頁信息收集系統包括關鍵詞生成模塊,其能夠根據用戶指定的文檔生成關鍵詞;信息收集模塊,其用于收集隨附于所述網頁信息的源碼;規則存儲模塊,其預設有關鍵詞和網頁信息的源碼的對應規則;數據庫,其用于存儲所述關鍵詞和收集到的所述網頁信息和所述源碼;以及判定模塊,其基于所述關鍵詞和收集到的所述源碼信息來判斷所述關鍵詞和網頁信息源碼是否符合所述的對應規則,如果符合所述對應規則,則將所述關鍵詞、所述網頁信息和所述源碼對應存入所述數據庫。
本發明還提供了一種信息網頁信息收集方法,根據用戶指定的文檔使用詞向量的算法進行聚類統計生成關鍵詞;收集隨附于所述網頁信息的源碼;以及基于所述關鍵詞和收集到的所述源碼信息來判斷所述關鍵詞和網頁信息源碼是否符合預設的對應規則,如果符合所述對應規則,則對應存儲所述關鍵詞、所述網頁信息和所述源碼。
本發明提供的方法和系統能夠較為全面的收集所需的網頁信息儲存于數據庫,有利于后期的分析檢索工作。
附圖說明
圖1是根據本發明一種網頁信息收集系統的具體實施方式的結構示意圖。
圖2是根據本發明一種網頁信息收集方法的具體實施方式的流程圖。
具體實施方式
以下,參照附圖對用于實施本發明的方式進行說明。圖1是根據本發明一種網頁信息收集系統的具體實施方式的結構示意圖。本實施方式的網頁信息收集系統為了取得在因特網上與用戶指定的某個文檔相關的公開的網頁信息(HTML文件、PDF文件),利用表示網頁信息的屬性(主題、制作時刻等)的源碼來判斷。參照圖1,網頁信息收集系統包括關鍵詞生成模塊10、信息收集模塊20、規則存儲模塊30、數據庫50、和判定模塊40。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城至新達科技有限公司,未經鹽城至新達科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111260682.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電力企業信息系統自動化巡檢系統
- 下一篇:一種山茶油的蒸餾精制方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





