[發明專利]基于關聯規則的社交網絡用戶信息填充方法有效
| 申請號: | 202010075197.0 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN111400571B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 王宏志;姜楠;王春楠 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9536;G06F16/35;G06F40/289;G06Q50/00;G06N20/00 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張利明 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關聯 規則 社交 網絡 用戶信息 填充 方法 | ||
1.基于關聯規則的社交網絡用戶信息 填充方法,其特征在于,具體包括:
步驟一、基于SCRAPY爬蟲框架獲取用戶在網絡社交平臺上的 個人信息和每個用戶在網絡社交平臺上發布的信息;
步驟二、對用戶在網絡社交平臺上的個人信息及其發布信息進行數據篩選處理,獲取有效用戶及其有效發布信息,利用ICTCLAS系統對每個有效用戶在社交網絡平臺發布的信息進行分詞,并提取每個有效用戶的關鍵詞;
步驟三、利用FP-Growth算法對有效用戶的關鍵詞進行關聯,獲取強關聯規則集合;
步驟四、利用強關聯規則集合,對信息缺失用戶進行不同關鍵詞強關聯操作,獲得關聯結果,若關聯結果不為0,執行步驟五,若關聯結果為0,執行步驟六;
步驟五、從關聯結果中,剔除與信息缺失用戶具有相同信息缺失位的用戶,獲得有效關聯結果,在有效關聯結果中選擇出現次數最多的用戶,利用出現次數最多的用戶的信息對缺失用戶信息缺失位進行填充,執行步驟七;
步驟六、使用補充算法KNNI對信息缺失用戶信息缺失為進行填充,執行步驟七;
步驟七、利用機器學習模型對信息缺失用戶填充的信息進行預測回歸,實現對填充信息進行糾正,完成社交網絡用戶信息填充。
2.根據權利要求1所述基于關聯規則的社交網絡用戶信息填充方法,其特征在于,步驟二中所述對用戶在網絡社交平臺上的個人信息及其發布信息進行數據篩選處理的具體方法為:
判斷用戶的年齡的范圍是否在A1~A2之間,將年齡范圍不在A1~A2之間的用戶數據剔除;
對年齡在A1~A2之間的信息完整的用戶發布在網絡社交平臺上的信息進行篩選,刪除特殊符號及字符小于2的信息。
3.根據權利要求2所述基于關聯規則的社交網絡用戶信息填充方法,其特征在于,A1為10歲,A2為100歲。
4.根據權利要求1或2所述基于關聯規則的社交網絡用戶信息填充方法,其特征在于,步驟七中所述利用機器學習模型對信息缺失用戶填充的信息進行預測回歸,實現對填充信息進行糾正的具體方法為:
采用機器學習分類模型,首先使用步驟六中填充完成后的信息作為所述模型輸入,對信息缺失用戶信息缺失位的信息進行預測,并采用預測值與填充值進行對比,當填充值與預測值不同時,使用預測值替換填充值;替換后再次利用機器學習分類模型對信息缺失用戶填充的信息進行再次預測,并判斷當前的預測值與填充值是否相同,若不同,用預測值替換填充值,直至預測值與填充值相同或迭代次數達到閾值β為止。
5.根據權利要求4所述基于關聯規則的社交網絡用戶信息填充方法,其特征在于,閾值β的最小值為4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010075197.0/1.html,轉載請聲明來源鉆瓜專利網。





