[發(fā)明專利]基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法、裝置及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010548003.4 | 申請(qǐng)日: | 2020-06-16 |
| 公開(公告)號(hào): | CN111859163B | 公開(公告)日: | 2023-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 丁大釗;張建軍;鮑尚策;王文重;楊鵬飛;張志航 | 申請(qǐng)(專利權(quán))人: | 珠海高凌信息科技股份有限公司 |
| 主分類號(hào): | G06F16/9536 | 分類號(hào): | G06F16/9536;G06Q50/00 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 伍志健 |
| 地址: | 519060 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 用戶 興趣 主題 網(wǎng)絡(luò) 預(yù)測 方法 裝置 介質(zhì) | ||
1.一種基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法,其特征在于,該方法包括:
S100,爬取微博網(wǎng)絡(luò)數(shù)據(jù)并建立用戶網(wǎng)絡(luò)拓?fù)?,將所爬取的用戶微博?nèi)容匯集成語料文檔;
S200,篩選二級(jí)好友,得到擁有共同關(guān)注的微博用戶;
S300,對(duì)所述語料文檔進(jìn)行文本建模,通過LDA聚類用戶語料文檔詞匯及主題特征;
S400,計(jì)算所述主題特征的概率分布,并構(gòu)建用戶興趣主題模型;
S500,通過KL距離計(jì)算所述二級(jí)好友的集合間的興趣主題相似度,并按比例取相似用戶作為預(yù)測結(jié)果,所述S500包括:
使用KL距離計(jì)算二級(jí)好友集合間的興趣主題相似度,得到計(jì)算結(jié)果,其中度量計(jì)算公式為
pj和qj表示兩個(gè)用戶在第j個(gè)主題下的概率分布。
2.根據(jù)權(quán)利要求1所述的基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法,其特征在于,所述S100包括:
爬取微博網(wǎng)絡(luò)數(shù)據(jù)并建立用戶網(wǎng)絡(luò)拓?fù)銰(V,E),以鄰接矩陣A表示;
同時(shí)將用戶微博內(nèi)容匯集成語料文檔D(U,B),其中U=(u1,u2,…,un)表示用戶集合,每個(gè)用戶ui的微博內(nèi)容按時(shí)序匯集為語料庫(bu,1,bu,2…,bu,M),每條微博內(nèi)容bu,i來自用戶ui分享或轉(zhuǎn)發(fā)。
3.根據(jù)權(quán)利要求2所述的基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法,其特征在于,所述S200包括:
應(yīng)用社會(huì)三元關(guān)系理論在網(wǎng)絡(luò)拓?fù)鋬?nèi)篩選二級(jí)好友,即獲取擁有共同關(guān)注的微博用戶,通過矩陣運(yùn)算操作為A·A,通過aih表示用戶i與用戶h存在共同關(guān)注好友數(shù)量,矩陣運(yùn)算的行向量即表示該用戶的二級(jí)好友集合。
4.根據(jù)權(quán)利要求3所述的基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法,其特征在于,所述S300包括:
進(jìn)行文本建模,利用LDA提取用戶語料文檔的詞袋向量d=(ω1,ω2,…,ωn),具體包括:
S301,計(jì)算文檔的詞匯矩陣,對(duì)每個(gè)用戶微博文檔內(nèi)容進(jìn)行詞匯統(tǒng)計(jì),詞wj在文檔bu,i中出現(xiàn)的頻率填充到對(duì)應(yīng)的矩陣位置;
S302,計(jì)算主題的詞匯矩陣,在語料庫中隨機(jī)指定主題編號(hào)zi,計(jì)算每個(gè)zi下出現(xiàn)的詞匯頻率;
S303,計(jì)算文檔的主題矩陣,統(tǒng)計(jì)每個(gè)詞代表的主題在每一個(gè)文檔中出現(xiàn)的次數(shù),得出用戶的微博文檔的對(duì)應(yīng)主題矩陣。
5.根據(jù)權(quán)利要求4所述的基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法,其特征在于,所述S400包括:
S401,分別對(duì)每個(gè)預(yù)先給定的主題zk(k=1,…,K)下所包括的單詞概率進(jìn)行多項(xiàng)采樣,其中主題zk(k=1,…,K),K為正整數(shù),單詞概率多項(xiàng)采樣為
S42:對(duì)每個(gè)用戶ui下的主題概率進(jìn)行采樣,采樣方式為θu~Dir(a),并進(jìn)一步計(jì)算構(gòu)建用戶興趣主題模型。
6.根據(jù)權(quán)利要求1所述的基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測方法,其特征在于,所述S500還包括:
根據(jù)所述計(jì)算結(jié)果按DKL值降序排序,并按設(shè)定比例取前L對(duì)用戶作為預(yù)測結(jié)果。
7.一種基于用戶興趣主題的微博網(wǎng)絡(luò)鏈路預(yù)測裝置,該裝置包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1-6任一所述的方法步驟。
8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6任一所述的方法步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于珠海高凌信息科技股份有限公司,未經(jīng)珠海高凌信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010548003.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 興趣點(diǎn)系統(tǒng)、興趣點(diǎn)信息系統(tǒng)以及下載多個(gè)興趣點(diǎn)的方法
- 用戶興趣點(diǎn)的確定方法、裝置及終端
- 一種全局興趣探索推薦方法和裝置
- 信息中心聯(lián)網(wǎng)中的跟蹤排隊(duì)延遲和執(zhí)行相關(guān)的擁塞控制的方法、裝置及介質(zhì)
- 興趣點(diǎn)重要度測量方法和裝置
- 一種導(dǎo)航方法及系統(tǒng)
- 興趣偏好預(yù)測方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種興趣點(diǎn)的質(zhì)量評(píng)分獲取方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 聚合興趣點(diǎn)的方法、裝置、設(shè)備和介質(zhì)
- 用于優(yōu)化興趣點(diǎn)標(biāo)簽的方法和裝置





