[發明專利]一種基于話題影響力的微博話題溯源方法有效
| 申請號: | 201410374437.1 | 申請日: | 2014-08-01 |
| 公開(公告)號: | CN104133897B | 公開(公告)日: | 2017-07-11 |
| 發明(設計)人: | 楊靜;董圓;張健沛;王勇;初妍;張樂君;楊悅;張澤寶;國林 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 話題 影響力 溯源 方法 | ||
1.一種基于話題影響力的微博話題溯源方法,其特征在于:
(1)根據信息檢索領域的隱形語義查詢擴展方法,對輸入的話題詞組tp進行語義擴展,得到與給定話題相關的前k個話題:
(1.1)對數據集中的所有微博進行去停用詞、詞干化預處理,構建基于向量空間模型的文本數據庫;
(1.2)對用戶提交的查詢話題進行去停用詞、詞干化預處理,形成查詢的向量形式TP;
(1.3)根據隱形語義索引LSI方法獲得與給定話題語義相關的前k個話題;
(2)確定微博網絡中的用戶關系及信息傳播規律,確定話題影響力TIN:
(2.1)在微博中搜索話題tpk包含的所有微博wbj,j=1……n;
(2.2)計算每條微博wbj的影響力wbinj;
wbinj=log fwj×log cmj×cpj,
其中,fwj代表微博的被轉發數,cmj代表微博的回復數,cpj代表微博的有效回復率即回復的微博中有效回復數占回復數之比;
(2.3)通過標簽字段判斷話題tpk所屬的類別,確定話題類別在話題影響力計算公式中的權重tc;
tc0代表話題類別的初始權重,wb代表某一時間段內要溯源的話題tpk的微博數量,wba表示這一時間段內網絡中的所有微博數;
(2.4)計算話題tpk的內容影響力CIN;
(2.5)計算話題的意見領袖的影響力LIN,其中影響因素包括用戶對話題的敏感度貢獻度UC和權威度UA,用戶的影響力排名中前5位用戶為話題的意見領袖,他們的影響力之和為話題的意見領袖影響力;
t表示實驗持續時間,Butp(i)表示距實驗起始時間第i個時間步用戶u所發布的與話題詞組tp有關的微博數,包括轉發、回復、原創微博,代表Butp(i)的均值;Bitp表示距實驗起始時間第i個時間步與話題詞組tp有關的微博數,代表Bitp的均值,以1h為一個時間步,
u1代表該用戶之前他的關注者中參與話題的人數,u2代表該用戶之后他的粉絲中參與話題的人數,b1代表用戶參與話題前他的關注者發表的與話題相關的微博數,b2代表用戶參與話題后他的粉絲發表的與話題相關的微博數,在影響力計算中的權重分配為:機構和媒體,UA=1.0;明星達人,UA=0.8;草根用戶,UA=0.4;
(2.6)計算話題的影響力強度TIN;
TIN=CIN+LIN;
(2.7)重復上述(2.1)到(2.6)步,計算出與話題詞組tp相關的k個話題的影響力;
(3)根據影響力計算公式,以1h為一個時間步計算話題的影響力,得到話題在傳播過程中隨著時間變化的影響力趨勢,其影響力強度從話題初期的緩慢增長到急劇上升最后達到平穩狀態,即話題成長為熱點;
(4)推導話題溯源遞推公式,并確定其溯源遞推終止條件,輸出引發話題的源頭wbp:
(4.1)根據話題的影響力變化趨勢逆向推導,得到溯源遞推公式:
TIN(tp)=min TIN(tpk);
(4.2)對話題的溯源模型進行動力學分析,仿真話題傳播的演化過程,當演化曲線趨于平穩時即停止話題的溯源遞推,
話題溯源模型包括三個狀態,以N表示未接觸話題狀態即未激活狀態,A表示接觸話題并傳播狀態即激活狀態,R表示接觸話題而不愿傳播狀態即免疫狀態;未激活態到激活態的概率為λ,激活態到免疫態的概率為μ,未激活態到免疫態的概率為θ;a(t),n(t),r(t)分別為A,N,R狀態的密度;
(4.3)輸出曲線中處于話題從出現到發展成為熱門話題的臨界區間的微博wbp,p=1……n。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410374437.1/1.html,轉載請聲明來源鉆瓜專利網。





