[發明專利]基于關聯規則的社交網絡用戶信息填充方法有效
| 申請號: | 202010075197.0 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN111400571B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 王宏志;姜楠;王春楠 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9536;G06F16/35;G06F40/289;G06Q50/00;G06N20/00 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張利明 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關聯 規則 社交 網絡 用戶信息 填充 方法 | ||
基于關聯規則的社交網絡用戶信息填充方法,涉及網絡技術領域。本發明是為了解決社交網絡用戶信息填充的準確性差的問題。本發明基于SCRAPY爬蟲框架獲取用戶的在網絡社交平臺上的個人信息和每個用戶在網絡社交平臺上發布的信息;利用ICTCLAS系統對每個有效用戶在社交網絡平臺發布的信息進行分詞,并提取每個有效用戶的關鍵詞;利用FP?Growth算法對有效用戶的關鍵詞進行關聯,利用強關聯規則集合將信息缺失的用戶與無信息缺失的用戶進行不同關鍵詞關聯,利用與其關聯的無信息缺失用戶的信息對信息缺失用戶缺失的信息進行填充,或者使用補充算法KNNI對信息缺失用戶缺失的信息進行填充。本發明適用于網絡平臺用戶信息填充使用。
技術領域
本發明涉及網絡技術領域。
背景技術
近年來,特別是因特網和社交網絡的顯著進步和普及,社交網絡在國民日常生活中的重要應用地位日漸凸顯。無論是明星大腕還是普通的網民,都在使用這些社交網絡獲取有用消息和信息,發布其個人狀態以及與其他用戶通信。這使得其中可用于分析與研究的數據在不斷累積。獲取數據的能力與技術手段使得社交網絡分析(SNA)和數據挖掘(DM)技術可以很好地應用于改善商業進程,并為用戶開發具有針對性的服務。在社交網絡數據的基礎上,現在已完成了以下任務:建立推薦系統,客戶互動機制,產品和服務的廣告和推廣,專家招聘與檢索,趨勢監控等。在中國,新浪微博目前是許多社交網絡應用程序中用戶數量最多的。隨著微博用戶數量的迅猛增長,微博用戶的個人信息顯得尤為重要,充滿商業價值。
然而,研究發現顯示,所有類型的社交網絡分析中最常見的問題之一是數據質量差,這使他們的分析復雜化。這其中,數據質量差主要是數據在獲取或處理過程中的缺失和數據來源本身就不完整導致的。影響數據質量的主要因素是社交網絡中的數據很容易在獲取和存儲階段產生缺失(任何字段都可能缺失,例如“年齡/出生日期”,“性別”,“婚姻狀況”)。由于社交網絡本身的復雜性,數據缺失是很容易產生且難以避免的。
目前缺失數據的填充方法可以分為兩個大類:統計型方法和機器學習型方法。缺失數據填充是基于使用一些統計或機器學習技術從所選觀察數據中產生估計來代替所缺失的值。最簡單的統計方法分別是連續和離散變量的均值和模式估算。此外,它們通常用作基線插補方法。在機器學習方法中,缺失值填充被稱為模式分類任務,其中缺失屬性被視為分類模型的目標輸出,其余完整屬性是用于訓練和測試模型的輸入特征。
現有的數據填充算法都是通過缺失數據集本身,挖掘其中的信息來進行數據填充,并不參考其他的信息與知識庫。這對于很多特征不明顯的數據集來說,處理的效果不夠理想。在Mark Huisman關于社交網絡簡單數據填充的論文中,他研究使用一些簡單的數據處理方式來處理丟失的網絡數據。實驗結果表明,忽略丟失的數據會對網絡的結構特性產生很大的負面影響。然而,基于簡單數據填充算法的缺失數據處理也具有很大的負面影響,并且簡單的填充只能在少數特定情況下成功地糾正數據缺失。
通過現有的資料可以發現,目前對社交網絡中對缺失的用戶信息數據的填充,各種算法的效果都不是特別理想。這是由于在社交網絡上,用戶信息數據是相對離散的,在填充過程中很難找到用戶之間的特征,除非深入挖掘用戶之間的關聯性。
發明內容
本發明的目的是通過挖掘到缺失社交網絡用戶信息數據集中存在的關聯性,對數據集進行填充,解決社交網絡用戶信息填充的準確性差的問題。
本發明所述的基于關聯規則的社交網絡用戶信息填充方法,具體包括:
步驟一、基于SCRAPY爬蟲框架獲取用戶的在網絡社交平臺上的個人信息和每個用戶在網絡社交平臺上發布的信息;
步驟二、對用戶在網絡社交平臺上的個人信息及其發布信息進行數據篩選處理,獲取有效用戶及其有效發布信息,利用ICTCLAS系統對每個有效用戶在社交網絡平臺發布的信息進行分詞,并提取每個有效用戶的關鍵詞;
步驟三、利用FP-Growth算法對有效用戶的關鍵詞進行關聯,獲取強關聯規則集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010075197.0/2.html,轉載請聲明來源鉆瓜專利網。





