[發(fā)明專利]一種融合網(wǎng)絡(luò)結(jié)構(gòu)和文本信息的社交關(guān)系預(yù)測方法有效
| 申請?zhí)枺?/td> | 201711143539.2 | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN107729569B | 公開(公告)日: | 2020-01-17 |
| 發(fā)明(設(shè)計(jì))人: | 張子柯;許帥帥;尤志強(qiáng);周鴿;劉闖 | 申請(專利權(quán))人: | 杭州師范大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q10/04;G06Q50/00 |
| 代理公司: | 33201 杭州天正專利事務(wù)所有限公司 | 代理人: | 王兵;黃美娟 |
| 地址: | 311121 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 網(wǎng)絡(luò) 結(jié)構(gòu) 文本 信息 社交 關(guān)系 預(yù)測 方法 | ||
1.一種融合網(wǎng)絡(luò)結(jié)構(gòu)和文本信息的社交關(guān)系預(yù)測方法,包括如下步驟:
步驟1,構(gòu)造原始興趣向量;
使用微博和推特?cái)?shù)據(jù)集中的用戶關(guān)注關(guān)系和用戶的文本信息內(nèi)容,首先使用開源分詞工具Ik Analyzer對數(shù)據(jù)集中的所有文本信息,即所有用戶發(fā)表的微博內(nèi)容或者推文內(nèi)容,進(jìn)行關(guān)鍵詞的提取;這樣可以得到用來刻畫每一個(gè)用戶的一系列關(guān)鍵詞;然后將分詞工具得到的所有的詞語使用word2vec開源工具進(jìn)行聚類,設(shè)置聚類個(gè)數(shù)為N,即將這些詞劃分為N個(gè)類別,這樣就得到了N個(gè)話題類別,那么對于每一個(gè)用戶來說,現(xiàn)在可以得到一個(gè)維度是N的興趣向量,該向量的具體計(jì)算方法如下:針對一個(gè)用戶i,構(gòu)建一個(gè)長度為N維且每一個(gè)維度取值都為0的初始興趣向量,然后依次掃描屬于用戶i的所有的關(guān)鍵詞,若某個(gè)關(guān)鍵詞屬于第j個(gè)話題類別,那么用戶i的特征向量中的第j個(gè)維度的值加1;直到掃描完所有屬于該用戶的關(guān)鍵詞,就可以得到該用戶i的興趣向量;在該興趣向量中,得分越高的維度說明該用戶對于該維度的話題有更多的關(guān)注度和興趣,使用Ti來表示第i個(gè)用戶的興趣向量,其分量具體的計(jì)算公式如下:
其中tij表示第i個(gè)用戶在第j個(gè)話題上的得分,Freqij表示第i個(gè)用戶的所有關(guān)鍵詞出現(xiàn)在第j個(gè)話題上的數(shù)量,表示第i個(gè)用戶在所有的關(guān)鍵詞出現(xiàn)在所有的話題上的數(shù)量,為歸一化項(xiàng);
步驟2,構(gòu)造修正興趣向量;
使用用戶的關(guān)注者的興趣向量修正用戶本身的原始興趣向量;具體方法如下:針對一個(gè)特定的目標(biāo)用戶u1,該目標(biāo)用戶u1所有關(guān)注的用戶是u2和u3,并且只關(guān)心用戶興趣向量中取值最大的top-K個(gè)維度,那么可以得到目標(biāo)用戶u1的興趣向量Tu1=(t11,t12,…,t1K),用戶u2的興趣向量為Tu2=(t21,t22,…,t2K),以及用戶u3的興趣向量為Tu3=(t31,t32,…,t3K),那么目標(biāo)用戶u1的興趣向量的修正的方法為將t11,t12,…,t1K,t21,t22,…,t2K,t31,t32,…,t3K中相同的維度上的值相加,不同的維度上的值全部保留而得到的結(jié)果;通過這樣的方法可以得到用戶的修正興趣向量;
步驟3,重構(gòu)用戶興趣向量;
在得到了目標(biāo)用戶的修正興趣向量之后,需要對目標(biāo)用戶和潛在的目標(biāo)用戶的關(guān)注用戶的興趣向量進(jìn)行重構(gòu),目標(biāo)用戶u1的修正興趣向量為Tu1=(t11,t12,…,t1n),其中的n的取值小于等于原始興趣向量的維度N并且大于等于在修正興趣向量模塊中取top-K個(gè)維度中選取的K值;目標(biāo)用戶u1的潛在關(guān)注用戶u5的原始興趣向量為Tu5=(t51,t52,…,t5N);首先如在修正興趣向量模塊中所述,抽取該用戶的top-K,這里K取值為4,即值最大的前4個(gè)維度組成新的興趣向量,Tu5=(t51,t52,…,t5K);然后考慮u1的修正興趣向量和u5的Top-4興趣向量的維度的并集,即,(t11,t12,…,t1n)∪(t51,t52,…,t5K);并按照并集的結(jié)果重新分別構(gòu)造u1和u5的興趣向量,若某一個(gè)用戶沒有某一個(gè)維度上的特征,則使用0補(bǔ)齊,這樣就得到了目標(biāo)用戶和目標(biāo)用戶的潛在關(guān)注用戶的重構(gòu)的興趣向量;
步驟4,預(yù)測社會關(guān)系;
對于給定的目標(biāo)用戶ui和ui的潛在關(guān)注用戶uj,定義關(guān)注uj并且同時(shí)是ui的關(guān)注者為ui到uj的橋接點(diǎn);將微博數(shù)據(jù)集和推特?cái)?shù)據(jù)集隨機(jī)的劃分為兩個(gè)部分,分別用作訓(xùn)練集和測試集;訓(xùn)練集中包括已知連邊的90%;這樣,對于測試集中的任一條邊Eij,通過構(gòu)建該邊Eij所連接的兩個(gè)用戶的修正興趣向量和識別這兩個(gè)用戶之間的橋節(jié)點(diǎn),即綜合考慮通過修正興趣向量對文本信息的利用和橋節(jié)點(diǎn)對網(wǎng)絡(luò)結(jié)構(gòu)的利用,得到如下的用于計(jì)算用戶ui關(guān)注用戶uj的概率計(jì)算公式,也就是邊Eij存在的概率:
其中,Sif表示用戶ui關(guān)注的所有對象;任何一個(gè)屬于Sif的用戶k,如果該用戶k也關(guān)注了用戶j,那么Ikj=1;否則Ikj=0;是值為0或者1的二元向量,該向量中每個(gè)維度上的值由向量A決定,如果向量A在該維度上的權(quán)值為正,那么在這個(gè)維度上的值為1;否則為0;所以表示用戶ui和用戶uj的興趣點(diǎn)重疊的個(gè)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州師范大學(xué),未經(jīng)杭州師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711143539.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





