[發明專利]一種基于社交網絡的數據采集與分析方法在審
| 申請號: | 201910158711.4 | 申請日: | 2019-03-04 |
| 公開(公告)號: | CN109902216A | 公開(公告)日: | 2019-06-18 |
| 發明(設計)人: | 孫希延;劉莉慧;汪華登;羅笑南 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/332;G06Q50/00 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 社交網絡 用戶數據 數據采集與分析 大數據 微博 社交網絡用戶 數據采集模塊 數據處理模塊 數據存儲模塊 數據分析模塊 用戶原創內容 爬蟲 爬蟲系統 屬性信息 算法獲取 用戶信息 語義分析 主題提取 挖掘 多維度 構建 算法 推斷 畫像 數據庫 分析 保存 研究 | ||
本發明公開了一種基于社交網絡的數據采集與分析方法,包括以下步驟:(1)以數據采集模塊采用Python中的Scrapy框架,構建微博爬蟲系統,使用分布式爬蟲算法獲取微博社交網絡中用戶數據;(2)數據存儲模塊將用戶數據保存到JSON格式和NoSQL類型的MongoDB數據庫中;(3)數據處理模塊對用戶原創內容的進行語義分析,進行用戶的主題提取,對大量用戶數據進行多維度挖掘分析、判別利用;(4)數據分析模塊研究實現缺失屬性信息推斷算法,獲取較全面的用戶信息,實現社交網絡用戶畫像。本發明通過大數據挖掘,獲取有價值的信息,降低了大數據分析的成本。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種基于社交網絡的數據采集與分析方法。
背景技術
隨著Web2.0網絡應用與移動終端設備的發展,社交網絡的普及率與使用率日益提高。相比傳統網絡應用形式,社交網絡具有用戶主體性強、網絡特征多樣、數據內容豐富、群體交互密切、信息傳播迅速等特點。中國互聯網用戶數量已經躍居全球首位,互聯網用戶在社交網站或者各大門戶網站平臺每天產生大量的網絡行為數據。特別是微信、微博、手環等即時通訊、自媒體工具以及個人狀態感應設備的使用,更使得每個用戶隨時都可以產生數據,整個社會深度跨入“社交網絡大數據”時代。信息技術的迅速發展,大幅度的提高了科研人員的計算能力,各類型的硬件存儲設備也不斷升級,逐步滿足數據的存儲要求。在軟件層面,算法、架構和編程語言也層出不窮。軟硬件技術的發展,更給大數據挖掘提供了可能。
對社交網絡大數據進行挖掘,能獲得反映真實世界及其中的人的各種寶貴信息。但同時,社會媒體中的數據也存在多源異構、個體間關系繁雜、信息傳播突發等特點,給社會媒體分析提出了技術上的挑戰。分析社交網絡的結構規律、挖掘用戶行為的特定模式、探索網絡信息傳播的內在機理、研究高效的社交網絡分析與網絡信息傳播預測方法,有利于提升對在線社會媒體的科學認知水平和有效利用能力,所以通過數據挖掘方法獲取社交網絡中的大量其它有價值的信息,已成為非常值得研究的問題。
由于近年來深度學習的流行,而深度學習又需要數據去訓練,因此對數據的采集需求又進一步加強。而當前傳統系統和方法都不具備大數據分析處理能力,并且數據采集一直存在成本偏高和花費時間長的缺陷。傳統數據挖掘技術采用可構建預測模型的算法,包括線性回歸,決策樹學習器,貝葉斯分類器和支持向量機等,但此類算法依然有待繼續改善。
發明內容
針對現有技術的不足,本發明所解決的技術問題是如何低成本地從大規模社交網絡中進行用戶的主題提取,獲取較全面的用戶信息,實現社交網絡用戶畫像。
為解決上述技術問題,本發明采用的技術方案是一種基于社交網絡的數據采集與分析方法,包括以下步驟:
(1)以數據采集模塊采用Python中的Scrapy框架,構建微博爬蟲系統,使用分布式爬蟲算法獲取微博社交網絡中用戶賬號信息、用戶原創內容以及用戶社交關系數據;
所述分布式爬蟲算法,具體應用過程如下:
1)使用Python中的Scrapy框架,構建微博爬蟲系統;
2)爬取用戶微博賬號,以user_id表示其字段類別,下載微博主頁頁面地址對應的網頁文件,在回調函數中完成數據解析和判別;
3)賬號自動登錄,通過從數據庫獲取事先準備的多個微博賬號和密碼,使用Selenium+Phantomjs模擬登錄微博平臺,進行系統登錄;
4)驗證碼的自動識別與驗證,在登錄過程中,獲取驗證碼圖片后,調用云打碼平臺提供的接口,提供驗證碼,接收云打碼返回的驗證碼字符串,再在Phantomjs中模擬登錄;登錄過程中建立cookie池,通過爬蟲框架中間件請求設計好的基于flask框架的接口,隨機從數據庫中返回JSON格式的新cookie,提供給Scrapy使用,來解決更換cookie的問題;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910158711.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種交易匹配的方法及系統
- 下一篇:一種天文學數據篩選與下載的爬蟲軟件





