[發(fā)明專利]一種基于社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910158711.4 | 申請(qǐng)日: | 2019-03-04 |
| 公開(公告)號(hào): | CN109902216A | 公開(公告)日: | 2019-06-18 |
| 發(fā)明(設(shè)計(jì))人: | 孫希延;劉莉慧;汪華登;羅笑南 | 申請(qǐng)(專利權(quán))人: | 桂林電子科技大學(xué) |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/332;G06Q50/00 |
| 代理公司: | 桂林市華杰專利商標(biāo)事務(wù)所有限責(zé)任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 廣西*** | 國(guó)省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 社交網(wǎng)絡(luò) 用戶數(shù)據(jù) 數(shù)據(jù)采集與分析 大數(shù)據(jù) 微博 社交網(wǎng)絡(luò)用戶 數(shù)據(jù)采集模塊 數(shù)據(jù)處理模塊 數(shù)據(jù)存儲(chǔ)模塊 數(shù)據(jù)分析模塊 用戶原創(chuàng)內(nèi)容 爬蟲 爬蟲系統(tǒng) 屬性信息 算法獲取 用戶信息 語(yǔ)義分析 主題提取 挖掘 多維度 構(gòu)建 算法 推斷 畫像 數(shù)據(jù)庫(kù) 分析 保存 研究 | ||
1.一種基于社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法,其特征在于,包括以下步驟:
(1)以數(shù)據(jù)采集模塊采用Python中的Scrapy框架,構(gòu)建微博爬蟲系統(tǒng),使用分布式爬蟲算法獲取微博社交網(wǎng)絡(luò)中用戶賬號(hào)信息、用戶原創(chuàng)內(nèi)容以及用戶社交關(guān)系數(shù)據(jù);
(2)數(shù)據(jù)存儲(chǔ)模塊將網(wǎng)絡(luò)爬取的用戶數(shù)據(jù)保存到JSON格式和NoSQL類型的MongoDB數(shù)據(jù)庫(kù)中;
(3)數(shù)據(jù)處理模塊基于自然語(yǔ)言處理技術(shù),對(duì)用戶原創(chuàng)內(nèi)容的進(jìn)行語(yǔ)義分析,設(shè)計(jì)短文本主題提取算法,進(jìn)行用戶的主題提取,從時(shí)間序列、地域等角度對(duì)大量用戶數(shù)據(jù)進(jìn)行多維度挖掘分析,實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶大數(shù)據(jù)的判別利用;
(4)最后數(shù)據(jù)分析模塊研究實(shí)現(xiàn)缺失屬性信息推斷算法,獲取較全面的用戶信息,實(shí)現(xiàn)社交網(wǎng)絡(luò)用戶畫像。
2.根據(jù)權(quán)利要求1所述的基于社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法,其特征在于,步驟(1)中,所述分布式爬蟲算法,具體應(yīng)用過程如下:
1)使用Python中的Scrapy框架,構(gòu)建微博爬蟲系統(tǒng);
2)爬取用戶微博賬號(hào),以u(píng)ser_id表示其字段類別,下載微博主頁(yè)頁(yè)面地址對(duì)應(yīng)的網(wǎng)頁(yè)文件,在回調(diào)函數(shù)中完成數(shù)據(jù)解析和判別;
3)賬號(hào)自動(dòng)登錄,通過從數(shù)據(jù)庫(kù)獲取事先準(zhǔn)備的多個(gè)微博賬號(hào)和密碼,使用Selenium+Phantomjs模擬登錄微博平臺(tái),進(jìn)行系統(tǒng)登錄;
4)驗(yàn)證碼的自動(dòng)識(shí)別與驗(yàn)證,在登錄過程中,獲取驗(yàn)證碼圖片后,調(diào)用云打碼平臺(tái)提供的接口,提供驗(yàn)證碼,接收云打碼返回的驗(yàn)證碼字符串,再在Phantomjs中模擬登錄;登錄過程中建立cookie池,通過爬蟲框架中間件請(qǐng)求設(shè)計(jì)好的基于flask框架的接口,隨機(jī)從數(shù)據(jù)庫(kù)中返回JSON格式的新cookie,提供給Scrapy使用,來解決更換cookie的問題;
5)進(jìn)行查重處理,在解析用戶數(shù)據(jù)過程并進(jìn)行存儲(chǔ)的過程中,進(jìn)行查重處理,即在分詞之前,對(duì)文本進(jìn)行一些預(yù)處理,解析每一個(gè)HTML格式的網(wǎng)頁(yè),提取用戶個(gè)人及其所發(fā)表的關(guān)鍵文本信息,通過MD5算法進(jìn)行文本的哈希運(yùn)算進(jìn)行文本信息的重復(fù)性判斷和去重處理。
3.根據(jù)權(quán)利要求1所述的基于社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法,其特征在于,步驟(1)中,所述用戶賬號(hào)信息具體包括微博用戶的性別、年齡、學(xué)歷、地域、教育背景、工作經(jīng)歷、婚姻狀態(tài)。
4.根據(jù)權(quán)利要求1所述的基于社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法,其特征在于,步驟(3)具體過程如下:
1)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理;
2)使用隱式狄利克雷分布算法作為主題提取算法,將分詞之后單個(gè)用戶的微博數(shù)據(jù)合并,使用隱式狄利克雷分布算法進(jìn)行主題提取訓(xùn)練;
3)針對(duì)合適時(shí)間粒度的微博進(jìn)行主題提取,實(shí)現(xiàn)對(duì)微博文本數(shù)據(jù)進(jìn)行主題提取和分類。
5.根據(jù)權(quán)利要求1所述的基于社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法,其特征在于,步驟(4)具體過程如下:
對(duì)文本多樣性及社交媒體結(jié)構(gòu)復(fù)雜性問題,采用多源融合、多特征融合及機(jī)器學(xué)習(xí)分類功能為一體的算法,利用訓(xùn)練得到的模型和用戶的已知特征,預(yù)測(cè)用戶的未知特征,最終實(shí)現(xiàn)用戶缺失的屬性信息的推斷。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林電子科技大學(xué),未經(jīng)桂林電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910158711.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 對(duì)社交網(wǎng)絡(luò)對(duì)象進(jìn)行排名
- 一種社交網(wǎng)絡(luò)的管理方法、系統(tǒng)和服務(wù)器
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 使用社交網(wǎng)絡(luò)賬號(hào)為游戲網(wǎng)絡(luò)賬號(hào)提供附加功能
- 一種獲取網(wǎng)絡(luò)主體社交關(guān)系類型的方法及裝置
- 預(yù)測(cè)社交網(wǎng)絡(luò)賬戶是否惡意的設(shè)備、方法及系統(tǒng)
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種面向隱私保護(hù)的網(wǎng)絡(luò)結(jié)構(gòu)去匿名化系統(tǒng)及方法
- 社交網(wǎng)絡(luò)異常用戶檢測(cè)方法、系統(tǒng)、介質(zhì)、設(shè)備、終端
- 業(yè)務(wù)用戶數(shù)據(jù)管理系統(tǒng)及其實(shí)現(xiàn)業(yè)務(wù)用戶數(shù)據(jù)管理的方法
- 業(yè)務(wù)用戶數(shù)據(jù)管理系統(tǒng)及其實(shí)現(xiàn)業(yè)務(wù)用戶數(shù)據(jù)管理的方法
- 用戶數(shù)據(jù)版本轉(zhuǎn)換系統(tǒng)及其用戶數(shù)據(jù)版本轉(zhuǎn)換方法
- 數(shù)據(jù)校驗(yàn)方法和裝置
- 用戶數(shù)據(jù)訪問控制方法、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 系統(tǒng)設(shè)計(jì)輔助裝置及系統(tǒng)設(shè)計(jì)輔助方法
- 一種用戶數(shù)據(jù)的訂閱方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種用戶數(shù)據(jù)標(biāo)簽處理方法及裝置
- 用戶數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 廣告監(jiān)控方法、裝置及電子設(shè)備
- 車載式數(shù)據(jù)采集與分析裝置
- 脈象數(shù)據(jù)信息采集與分析裝置
- 造價(jià)分析數(shù)據(jù)采集與處理系統(tǒng)
- 支付及數(shù)據(jù)采集、顯示與數(shù)據(jù)分析系統(tǒng)
- 一種遠(yuǎn)程智能檢測(cè)與數(shù)據(jù)采集分析系統(tǒng)
- 一種基于數(shù)據(jù)分析的電子商務(wù)系統(tǒng)
- 一種工業(yè)數(shù)據(jù)處理方法、系統(tǒng)及設(shè)備
- 一種企業(yè)數(shù)據(jù)采集與分析系統(tǒng)
- 數(shù)據(jù)采集與分析儀
- 一種起重機(jī)械的狀態(tài)監(jiān)測(cè)、分析與故障診斷一體系統(tǒng)
- 基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動(dòng)的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺(tái)架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級(jí)傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識(shí)產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)





