[發明專利]一種預測社交網絡用戶屬性的方法有效
| 申請號: | 201710475429.X | 申請日: | 2017-06-21 |
| 公開(公告)號: | CN107368534B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 王夢伊;陳志;岳文靜;劉亞威 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/901;G06Q50/00 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 葉連生 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 預測 社交 網絡 用戶 屬性 方法 | ||
本發明公開了一種預測社交網絡用戶屬性的方法,包括以下步驟:步驟1)采集社交網絡信息數據,并對數據進行清洗,獲得社交網絡清洗后的數據,步驟2)定義社交網絡圖模型;步驟3)對數據進行分析,步驟4)對數據進行特征提取,步驟5)采用局部全局一致性算法預測隱藏屬性,步驟6)獲得預測結果。本發明提高了社會網絡用戶的屬性的預測準確性,使用通用的半監督學習框架,來推斷用戶的屬性。根據用戶的數據類型建立訓練模型,使用基于圖的協同訓練模型,推斷用戶的屬性。本發明能夠讓社交網絡用戶擁有更好的使用體驗,幫助系統更精準地自動為用戶進行分組、內容共享和推薦朋友。
技術領域
本發明涉及社交網絡用戶屬性預測方法,主要是從全局角度建立一個機器學習模型來優化推測模型的準確性,屬于計算機技術、信息技術、人工智能技術交叉技術應用領域。
背景技術
半監督預測模型是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。它主要考慮如何利用少量的標注樣本和大量的未標注樣本進行訓練和分類的問題。半監督學習對于減少標注代價,提高學習機器性能具有非常重大的意義。半監督學習算法利用訓練數據中有類標簽的樣本和無類標簽的樣例,以及未知的測試樣例一起進行訓練,不僅預測訓練數據中無類標簽的樣例的類標簽,更主要的是預測未知的測試樣例的類標簽。
發明內容
本發明目的是提供一種預測社交網絡用戶屬性的方法,以解決社會網絡用戶的屬性的預測問題,使用通用的半監督學習框架,根據用戶的數據類型建立訓練模型,使用基于圖的協同訓練模型,推斷用戶的屬性。
本發明為解決上述技術問題采用以下技術方案:
一種預測社交網絡用戶屬性的方法,包括以下步驟:
步驟1)采集社交網絡信息數據,并對數據進行清洗,獲得社交網絡清洗后的數據,具體步驟如下:
步驟11)將同一用戶的屬性封裝成一個類,將值為字符串的,每個字符串分配一個唯一的數字ID,將包含地點的轉化為經緯度表示;
步驟12)去除不具備分類能力的屬性;
步驟13)將屬性少于60個的用戶刪除,選擇一個用戶的屬性有多個值的,提取排在其最前面的值;
步驟2)定義社交網絡圖模型,具體步驟如下:
步驟21)定義社交網絡圖G=(V,E),其中,V為節點,表示用戶;E為邊,表示用戶間的關系;
步驟22)對于表示用戶i的節點Vi,Vi∈V,i={1,2,3....,n},用一個向量Ai表示用戶i的屬性,其中,n為用戶的數量,m為用戶i的屬性數,為用戶i的第j個屬性;
步驟23)定義Dc為標記過的數據集,定義Lc為標記過的數據集Dc對應的標簽集,其中,Dc=(d1,d2,...,dl),di∈D,i∈(1,2,...,l),Lc=(L1,L2,...,Ll),Li∈τ,i∈(1,2,...,l),D為數據集,τ為標簽集,l為標記過的標簽集;
步驟24)定義Du為未標記過的數據集,定義Lu為未標記過的標簽集,其中,Du=(d1+l,d2+l,...,dq),Lu=(L1+l,L2+l,...,Lq),q為標簽的數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710475429.X/2.html,轉載請聲明來源鉆瓜專利網。





