[發(fā)明專利]微博用戶興趣推理方法及裝置在審
| 申請?zhí)枺?/td> | 201610053718.6 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105740366A | 公開(公告)日: | 2016-07-06 |
| 發(fā)明(設(shè)計)人: | 王岢;徐曉飛;葉允明;李小宜;劉廣建 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)深圳研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44248 | 代理人: | 孫偉 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶 興趣 推理 方法 裝置 | ||
1.一種建立微博用戶興趣推理模型的方法,其特征在于:所述方法包括(1)用戶個人標簽的獲取與計算,(2)用戶微博內(nèi)容的興趣關(guān)鍵詞提取,(3)提取基于社會化網(wǎng)絡(luò)的興趣標簽,最后對上述三個方面的興趣特征進行融合,建立用戶的興趣模型:
M=αMtags+βMcontent+γMrelation
其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的標簽通過計算得到的博主興趣點模型,Mcontent是博主微博的內(nèi)容提取出來的興趣關(guān)鍵詞,Mrelation是基于博主的關(guān)注列表提取的博主興趣點模型;Mtags的模型計算主要是提取當(dāng)前博主的Tags標簽,并利用標簽自帶的權(quán)重值進行歸一化處理;Mcontent的提取關(guān)鍵詞的計算包括:微博文本的預(yù)處理,分詞、同義詞計算進行話題分類,微博內(nèi)容擴充,關(guān)鍵詞提取以及權(quán)重計算;Mrelation采用標簽傳播算法計算,所述標簽傳播算法是利用已標注好的節(jié)點標簽信息去評測尚未標記節(jié)點的標簽信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述微博內(nèi)容擴充分為兩種方式:一是對該用戶的微博進行分類聚類處理,從微博平臺收集具有相同話題或相似話題的微博歸為博主的微博數(shù)據(jù)文本數(shù)據(jù)集中;二是利用WBUserRank算法尋找與當(dāng)前博主關(guān)系最為密切的那些博主的部分微博混合集作為當(dāng)前博主的微博文本集。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:對融合后的主題模型的關(guān)鍵詞提取,采用計算主題內(nèi)關(guān)鍵詞的相似性的方法,選取權(quán)重較大的有代表性的詞作為關(guān)鍵詞。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:博主A經(jīng)過標簽傳播算法可以表示成:
其中MA表示待標注的博主A的興趣標簽?zāi)P头柋硎荆硎静┲鰽的關(guān)注列表中第i個被關(guān)注的博主的興趣模型,WBUR(Ai)表示Ai在節(jié)點排名算法中的重要性,UNI(Ai)表示博主節(jié)點自身的重要度。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于:根據(jù)博主的粉絲數(shù)/關(guān)注數(shù)比率判斷博主的影響力,根據(jù)發(fā)布微博數(shù)和注冊時間衡量博主的活躍度,若博主的影響力大,則適當(dāng)提高α,β的值,降低γ的值;若博主自身影響力較小,且微博內(nèi)容大多都是轉(zhuǎn)發(fā)、評論等,則適當(dāng)提高γ的值,降低α,β的值;個人標簽、微博內(nèi)容和關(guān)注興趣模型這三者之間,若不存在相似性,則適當(dāng)增加γ的值,降低α,β的值,若其中兩者之間有相似性,則提高兩個模型對應(yīng)的參數(shù)值,降低另外一個參數(shù)值。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述模型采用加權(quán)關(guān)鍵詞進行表示。
7.一種建立微博用戶興趣推理模型的裝置,其特征在于:所述裝置包括:用于用戶個人標簽的獲取與計算的模塊,提取當(dāng)前博主的Tags標簽,并利用標簽自帶的權(quán)重值進行歸一化處理;
用于用戶微博內(nèi)容的興趣關(guān)鍵詞提取的模塊,對微博文本的預(yù)處理,分詞、同義詞計算進行話題分類,微博內(nèi)容聚類擴展,關(guān)鍵詞提取以及權(quán)重計算;
用于提取基于社會化網(wǎng)絡(luò)的興趣標簽的模塊,采用標簽傳播算法計算,所述標簽傳播算法是利用已標注好的節(jié)點標簽信息去評測尚未標記節(jié)點的標簽信息;
用于進行興趣特征融合的模塊,建立用戶的興趣模型:
M=αMtags+βMcontent+γMrelation
其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的標簽通過計算得到的博主興趣點模型,Mcontent是博主微博的內(nèi)容提取出來的興趣關(guān)鍵詞,Mrelation是基于博主的關(guān)注列表提取的博主興趣點模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)深圳研究生院,未經(jīng)哈爾濱工業(yè)大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610053718.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:廚用超聲波臭氧清洗機
- 下一篇:三角形支撐架





