[發明專利]一種基于用戶話題權威性的微博重排序方法有效
| 申請號: | 201410564145.4 | 申請日: | 2014-10-21 |
| 公開(公告)號: | CN104317881B | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 禮欣;李懿;翟艷梅 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙)11639 | 代理人: | 唐華 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 話題 權威性 微博重 排序 方法 | ||
1.一種用戶話題權威性的計算方法,其特征在于,包括以下步驟:
步驟一、獲取話題以及由微博搜索引擎返回的按照時間排序的結果集;
步驟二、在步驟一得到的結果集中抽取所有用戶id;
步驟三、獲取步驟二中每一個用戶id一跳網絡中的如下信息:
用戶id的所有粉絲的id及其所有微博;
用戶id所關注的所有人的id及其所有微博;
用戶id的所有微博;
步驟四、從步驟三得到的結果集中提取步驟一獲取的話題上的所有微博及其對應的用戶信息;
步驟五、從步驟四得到的結果集中提取如下話題度量信息:
表示原創微博的度量:原創微博的數量OT1,分享鏈接的數量OT2、用戶所有微博中的單詞的重復度OT3和hashtag的數量OT4;
表示會話微博的度量:會話微博的數量CT1和由該用戶發起的會話微博的數量CT2;
表示轉發微博的度量:轉發微博的數量RT1,原創微博中被不重復計算的其他用戶轉發的個數RT2和轉發該用戶的微博的不重復計算的所有用戶的個數RT3;
表示提及的度量:該用戶提及到的相同用戶可重復計算的其他用戶的次數M1,該用戶提及到的相同用戶不重復計算的其他用戶的個數M2、其他用戶提及到該用戶的次數M3和提及到該用戶的其他用戶的個數M4;
表示與用戶關系圖相關的度量:該用戶在該話題上活躍的粉絲數G1,該用戶關注的人在該話題上活躍的個數G2、在該用戶之后發布該話題微博的粉絲數G3和該用戶關注的人中先于該用戶發布該話題微博的數量G4;
表示用戶總的受歡迎程度的度量:該用戶總的粉絲的數量F1和該用戶關注的人的總的數量F2;
步驟六、提出用戶話題權威性的特征、特征計算公式并計算;
步驟七、提出用戶話題權威性即用戶話題權威值計算公式并計算,具體如下:
(1)、話題參與強度:其中|tweets|表示該用戶所有話題上的所有微博的數量;
(2)、原始話題強度:
(3)、非會話話題強度:
其中λ用于表示用戶傾向于進入微博會話的程度,較優的λ=0.9;
(4)、轉推影響力:RI=RT2*log(RT3);
(5)、提及影響力:MI=M3*log(M4)-M1*log(M2);
(6)、信息傳播度:ID=log(G3+1)-log(G4+1);
(7)、一跳網絡得分:NS=log(G1+1)-log(G2+1);
(8)、超鏈接在原創微博中所占的比例:
(9)、關鍵詞hashtag在原創微博中所占的比例:
(10)、作者微博所用詞的相似度:
其中n表示作者所有的微博數量,表示si和sj的相似度,si和sj是由作者的第i和第j條微博中通過去掉停用詞以及做stem之后得到的單詞的集合;在計算OT3之前,所有微博先按照時間排序,即times(si)<times(sj):
(11)、所有粉絲中該話題上有微博的粉絲所占的比例:
(12)、粉絲強度:
步驟八、返回用戶話題權威值計算結果。
2.根據權利要求1所述的一種用戶話題權威性的計算方法,其特征在于,所述用戶話題權威值計算公式如下所述:
其中,xi表示第i個用戶,f表示第f個特征,表示用戶i在第f個特征上的值,Ff表示參數為θf的特征f的在其分布上的累積概率分布在xi處的值,θf表示特征f的概率密度分布的參數,β∈(0,1),表示在話題特征以及非話題特征之間做平衡的參數,其值由最大化皮爾遜相關系數求得。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410564145.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種理氣開郁茉莉茶及其制作方法
- 下一篇:一種苦瓜片荷葉舒緩茶及其制備方法





