[發明專利]微博媒體中的意見領袖識別方法有效
| 申請號: | 201310032394.4 | 申請日: | 2013-01-26 |
| 公開(公告)號: | CN103150333A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 鄭中華;高威;帥志虎;周銀行 | 申請(專利權)人: | 安徽博約信息科技有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230000 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 媒體 中的 意見 領袖 識別 方法 | ||
1.微博媒體中的意見領袖識別方法,包括以下步驟:
一、網絡意見收集:
網絡意見的收集是通過微博平臺用戶發表的言論,通過網絡的合法的收集下載,下載大量的微博發文及其評論信息,并針對相關的話題比較活躍的進行跟蹤的下載,將所有的發文按照用戶分類進行抽取、統計以提供各方面的分析;
二、標準樣本庫標注:
選取一段時間內,有發言的微博作者,由相關的意見領袖識別專家對該作者進行手工標注,給出是否為網絡水軍的判定,并從中選取一定量的微博作者放入標準樣本數據庫;該樣本數據將作為后續意見領袖判定的標注樣本集合;
三、意見個體活躍度:
1)個體活躍度由三個方面構成,包括,在某一段相關話題比較活躍的時間內,該作者平均每天發表的原創帖子數量記為Vorg,每天轉發的帖子數量記為Vfor,每天評論的帖子數量記為Vrem,可以定義下述公式將該指標量化;
L=WorgVorg+WforVfor+WremVrem?(1)
在(1)式中,Worg為原創帖子所占的活躍度權重,Wfor為轉發帖子所占的活躍度權重,Wrem為評論帖子所占的活躍度權重;為了防止具有較大初始值的屬性與具有較小初始值的屬性相比,權重過大,需要先將上述三種帖子數量進行規范化后再代入公式進行計算;
四、意見個體受關注度:
如果意見個體所發的微博受關注程度越高,則越可能是意見領袖,為此定義平均轉發數、平均瀏覽數、平均評論數三種指標如下;
1)平均轉發數M=Tt/N,其中:N為發文量,Tt為所有發文轉發總數;
2)平均瀏覽數S=Tc/N,其中:N發文量,Tc為所有發文瀏覽數的總數;
3)平均評論數P=Td/N,其中:N發文量,Td為所有發文評論數的總數;
4)平均轉發數的權重比為Wm,平均瀏覽數的權重比為Ws,平均評論數的權重比為Wp;
意見個體受關注度C=M*Wm+S*Ws+P*Wp??(2)
各個數量在代入(2)式計算時同樣需要做歸一化處理;
五、意見個體發文認同度:
對于某個主題或領域的意見領袖,其發表的微博觀點往往會得到多數人的認同,定義意見個體發文認同度指標如下:
在(3)式中,Agreei表示意見個體發布的第i篇文章中所有持支持態度的評論數;DisAgreei表示持反對態度的評論數;k為意見個體發布的文章總數;N為所有參與評論的作者數量;
六、意見領袖的分析和識別:
針對步驟二中所述樣本標注集合,計算出每一個作者的意見個體活躍度,意見個體受關注度,意見個體發文認同度后,可以得到一個三維特征向量(L,C,A),每個作者都代表三維空間中的一個點;對于一個未知的作者樣本,在計算出其三維特征向量后,那么可以計算出樣本數據集中離其最近的K個點,其中意見領袖和非意見領袖兩個類別所占的個數表示成ki,i=1,2;i=1表示意見領袖,i=2表示非意見領袖,定義判別函數為:gi(x)=ki,i=1,2;決策規則為:根據這個K個最近鄰點中所占大多數的類別,可以預測出該作者是否為意見領袖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽博約信息科技有限責任公司,未經安徽博約信息科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310032394.4/1.html,轉載請聲明來源鉆瓜專利網。





