[發(fā)明專利]基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810231543.2 | 申請(qǐng)日: | 2018-03-20 |
| 公開(公告)號(hào): | CN108596205B | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 吳渝;張宏斌;李紅波;儲(chǔ)偉;林江鵬;艾偉東 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06F40/289;G06Q50/00 |
| 代理公司: | 重慶市恒信知識(shí)產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 劉小紅;陳棟梁 |
| 地址: | 400065 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 地域 相關(guān) 因子 稀疏 表示 轉(zhuǎn)發(fā) 行為 預(yù)測(cè) 方法 | ||
1.一種基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,其特征在于,包括以下步驟:
步驟1:從數(shù)據(jù)中提取用戶基本特征、微博基本特征;
步驟2:通過已提取的用戶及微博基本特征計(jì)算用戶活躍度、用戶的親密程度、基于主題地域相關(guān)因子的用戶興趣度;
步驟3:對(duì)步驟2的包括用戶活躍度、用戶的親密程度、基于主題地域相關(guān)因子的用戶興趣度在內(nèi)的多維數(shù)據(jù)特征進(jìn)行特征篩選;
步驟4:篩選后的特征組通過稀疏表示分類算法進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè),得到最終預(yù)測(cè)結(jié)果;
所述步驟2中用戶興趣度引入主題地域相關(guān)因子,
融入主題地域相關(guān)因子的用戶興趣度表示為:
其中,I表示用戶興趣度,S表示興趣相近度,T表示主題地域相關(guān)因子;
所述主題地域相關(guān)因子計(jì)算公式為:
其中,Zm表示微博m的主題詞語(yǔ)集合,∩表示交集,R表示接收用戶的所在地區(qū);
所述興趣相近度為
其中,H表示用戶興趣空間,J表示新微博特征空間,∪表示并集。
2.根據(jù)權(quán)利要求1所述的基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,其特征在于,所述步驟1從數(shù)據(jù)中提取用戶基本特征、微博基本特征具體包括:
步驟1.1:提取用戶基本特征:用戶昵稱、用戶所在地、用戶姓名、用戶粉絲數(shù)、用戶關(guān)注數(shù)、用戶微博數(shù)、用戶創(chuàng)建時(shí)間;
步驟1.2:提取微博發(fā)布時(shí)間、微博具體內(nèi)容、微博是否為轉(zhuǎn)發(fā)、是否分享圖片、是否含有鏈接、微博來源、微博轉(zhuǎn)發(fā)數(shù)、微博評(píng)論數(shù)以及微博被贊數(shù)。
3.根據(jù)權(quán)利要求1所述的基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,其特征在于,所述步驟2用戶的親密程度為
所述用戶活躍度為
其中,PA為發(fā)表活躍度,RA為轉(zhuǎn)發(fā)活躍度,n為用戶在時(shí)間t內(nèi)發(fā)表的微博數(shù)量,ri為用戶第i天轉(zhuǎn)發(fā)的微博數(shù)量,pi為用戶第i天發(fā)送的數(shù)量。
4.根據(jù)權(quán)利要求1所述的基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,其特征在于,所述主題地域相關(guān)因子采用隱含狄利克雷主題模型LDA,生成文檔的主題詞;
根據(jù)隱含狄利克雷分布主題模型的生成過程,詞語(yǔ)wm,n的生成概率為:
θm表示文檔m的主題分布,表示主題k的詞分布,t表示詞語(yǔ)t,wm,n表示文檔m的第n個(gè)詞語(yǔ),zm,n表示為微博m的第n個(gè)單詞的主題;
而LDA模型生成文檔m及產(chǎn)生Nm個(gè)單詞的生成概率為:
α表示文檔中隱含主題間的強(qiáng)弱關(guān)系,β表示隱含主題的概率分布,表示文檔m中第n個(gè)單詞的詞分布,多篇微博文檔形成語(yǔ)料集,似然計(jì)算如下:
以每個(gè)用戶發(fā)布的微博內(nèi)容為文本語(yǔ)料,先進(jìn)行預(yù)處理,再訓(xùn)練微博主題模型找出核心詞語(yǔ),預(yù)處理流程為,先根據(jù)“結(jié)巴分詞”對(duì)源內(nèi)容進(jìn)行分詞,其次去除停用詞和標(biāo)點(diǎn)符號(hào),接著英語(yǔ)單詞詞干化,設(shè)置參數(shù)α,β,K從而構(gòu)建主題模型,K表示主題數(shù)量。
5.根據(jù)權(quán)利要求1所述的基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,其特征在于,所述步驟3是采用主成分分析方法對(duì)已有特征數(shù)據(jù)降維去噪。
6.根據(jù)權(quán)利要求1所述的基于地域相關(guān)因子與稀疏表示的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,其特征在于,所述步驟4篩選后的特征組通過稀疏表示分類算法進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè),得到最終預(yù)測(cè)結(jié)果,具體包括:
稀疏表示分類SRC是通過借助超完備字典,用盡可能少的信號(hào)來表示原有信號(hào),其中許多數(shù)值約為零的系數(shù)被丟棄,并通過最小重構(gòu)誤差來分類;
min||x||0 subject to Ax=y(tǒng) (11)
其中,||x||0表示x中非零元素的個(gè)數(shù),A為字典,y為待處理信號(hào),通過L0范數(shù)表示稀疏性,在計(jì)算實(shí)現(xiàn)上復(fù)雜,因此將L0范數(shù)轉(zhuǎn)換為L(zhǎng)1范數(shù)處理,如式(12);
min||x||1 subject to Ax=y(tǒng) (12)
因此,L1范數(shù)的求解可以轉(zhuǎn)變?yōu)樽顑?yōu)凸近似問題,可以通過L1正則近似得到,如式(13):
式(13)是數(shù)理模型中的Lasso問題,可以看做是正則最小二乘問題;
SRC分類算法流程如下:
1)輸入訓(xùn)練樣本集A=[A1,A2,...,Ak]∈Rm*n,測(cè)試樣本y∈Rm;
2)歸一化矩陣A的列,為L(zhǎng)2范式;
3)解決L1范式最小化問題:
min||x||1subject to||Ax-y||2≤ε,其中ε為重構(gòu)誤差值;
4)計(jì)算殘差:ri(y)=||yr-Aδi(x)||2=||yr-ε-Aδi(x)||2,i=1,2,其殘差最小的i,則i為y的分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810231543.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- Ⅶ因子多肽和Ⅷ因子多肽的聯(lián)合應(yīng)用
- VII因子多肽和IX因子多肽的聯(lián)合應(yīng)用
- 一種城鄉(xiāng)生態(tài)規(guī)劃的生態(tài)等級(jí)空間分區(qū)規(guī)劃控制方法
- 一種基于阿爾法散度的動(dòng)態(tài)PET圖像因子處理方法
- 一種設(shè)備綜合風(fēng)險(xiǎn)評(píng)估方法、裝置和電力系統(tǒng)
- 一種集群資源容量預(yù)測(cè)方法和裝置
- 一種計(jì)算因子植入方法、介質(zhì)及設(shè)備
- 一種規(guī)模組網(wǎng)環(huán)境TI-LFA可靠性評(píng)估測(cè)試方法
- 近地表品質(zhì)因子確定方法及系統(tǒng)
- 一種模擬凝血過程的教學(xué)模型





