[發明專利]一種互聯網大數據分析提取方法及系統有效
| 申請號: | 201611200311.8 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106776567B | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 黃譯萱;陳桓;蔡曉勝;張良杰 | 申請(專利權)人: | 金蝶軟件(中國)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 分析 提取 方法 系統 | ||
本申請公開了一種互聯網大數據分析提取方法包括:獲取目標對象的網頁源碼文本集;從網頁源碼文本集中的每份網頁源碼文本中提取出目標對象的網頁特征信息,并分析出網頁特征信息的權重,得到第一特征信息集;從第一特征信息集中篩選出權重值高于第一預設權重的網頁特征信息,得到正查數據。可見,本申請在獲取互聯網上的網頁源碼文本后進行了分析和提取,使得能夠對網頁特征信息進行排序和篩選,排除了精準度和可信度低的數據,得到可信度和精準度更高的正查數據,相較于現有技術不是簡單的獲取,而是通過各種算法對原始數據進行了分析和提取,以此獲得準確度高和可信度高的數據。另外,本申請還相應公開了一種互聯網大數據分析提取系統。
技術領域
本發明涉及大數據管理領域,特別涉及一種互聯網大數據分析提取方法及系統。
背景技術
自古以來人們就深知信息的重要性,擁有更多和更精準的信息就能獲得優勢,隨著社會的不斷進步,信息越來越多樣化,且數量也是成倍的增長,大數據的概念也隨之提出,從龐雜的數據中,提取所需的數據進行分析,得到直觀的信息,以此來占據先機,獲取利益。
目前,對于企業大數據的采集采用網絡爬蟲,前往各大公示公開的政府的網站爬取企業相關信息,做了結構化HTML文件存儲下來,成為自身的數據,并支持數據的更新,而政府的網站可能僅有企業的少量信息,且相對于企業的官網更新速度慢,不足以滿足用戶的需求,而單純的前往互聯網中搜索企業相關信息,可能會被一些釣魚網站、過期信息和大量的無用信息所干擾,難以得到真實可信的數據,不能保證信息的準確性和實用性。
因此,如何能夠更深入的解析企業大數據,提供準確、可信和全面的信息是要解決的問題。
發明內容
有鑒于此,本發明的目的在于提供一種互聯網大數據分析提取方法及系統,提高數據的準確性和可信度。其具體方案如下:
一種互聯網大數據分析提取方法,包括:
獲取目標對象的網頁源碼文本集;
從所述網頁源碼文本集中的每份網頁源碼文本中提取出所述目標對象的網頁特征信息,并分析出網頁特征信息的權重,得到第一特征信息集;
從所述第一特征信息集中篩選出權重值高于第一預設權重的網頁特征信息,得到正查數據。
優選的,所述從所述網頁源碼文本集中的每份網頁源碼文本中提取出所述目標對象的網頁特征信息的過程包括:
利用JSOUP分別對所述網頁源碼文本集中的每份網頁源碼文本進行解析,得到相對應的純內容數據集,從所述純內容數據集中的每份純內容數據中提取出所述目標對象的網頁特征信息。
優選的,所述從所述網頁源碼文本集中的每份網頁源碼文本中提取出所述目標對象的網頁特征信息,并分析出網頁特征信息的權重的過程包括:
從所述純內容數據集中的每份純內容數據中,利用正則匹配和固話區號匹配限制,提取電話和郵箱信息,并分別得到電話和郵箱信息各自的權重;
從所述純內容數據集中的每份純內容數據中,利用基于自然語言處理技術的算法和地域匹配權重,提取地址信息,并得到地址信息的權重;
從所述純內容數據集中的每份純內容數據中,利用關鍵字定位和停用詞,提取所述目標對象的簡要描述信息,并得到簡要描述信息的權重;
從所述純內容數據集中的每份純內容數據中,利用關鍵字定位、正在匹配和基于自然語言處理技術的算法提取聯系人名稱、傳真和職位信息,并分別得到聯系人名稱、傳真和職位信息各自的權重。
優選的,所述從所述網頁源碼文本集中的每份網頁源碼文本中提取出所述目標對象的網頁特征信息,并分析出網頁特征信息的權重的過程包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金蝶軟件(中國)有限公司,未經金蝶軟件(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611200311.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:情感詞匯的識別方法及裝置
- 下一篇:基于用戶評價的推薦理由生成方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





