[發(fā)明專利]基于異構(gòu)社會媒體用戶動態(tài)行為的微博主題挖掘方法有效
| 申請?zhí)枺?/td> | 202011024515.7 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112364161B | 公開(公告)日: | 2021-12-07 |
| 發(fā)明(設(shè)計)人: | 賀瑞芳;劉宏宇;朱永凱;王浩成;韓迪 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/30;G06Q50/00;G06K9/62 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 社會 媒體 用戶 動態(tài) 行為 主題 挖掘 方法 | ||
本發(fā)明公開了一種基于異構(gòu)社會媒體用戶動態(tài)行為的微博主題挖掘方法,包括以下步驟:構(gòu)建屬性多元異構(gòu)對話網(wǎng)絡(luò),挖掘異構(gòu)社交上下文用于話題檢測;引入鄰居級注意力機制和交互級注意力機制建模不同鄰居及不同類型交互方式對主題推斷的不同影響,學(xué)習(xí)特定視圖的嵌入;多個視圖的表示作為多視圖神經(jīng)變分推理的輸入,捕獲不同視圖攜帶的話題語義間的復(fù)雜關(guān)聯(lián),從而挖掘一致性更佳的主題。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理以及社會媒體數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體為一種基于異構(gòu)社會媒體用戶動態(tài)行為的微博主題挖掘方法。
背景技術(shù)
社會媒體網(wǎng)站(如新浪微博等)的出現(xiàn)使得互聯(lián)網(wǎng)上內(nèi)容的形式大大改變。微博允許用戶在其上發(fā)布和瀏覽信息,并具有很強的社交屬性功能,如轉(zhuǎn)發(fā)和評論。微博平臺上存儲著海量的文本數(shù)據(jù),并且每天以驚人的速度增長。微博文本內(nèi)容包含了大量的信息,從中挖掘主題信息可以用于話題推薦、突發(fā)事件檢測、精準營銷等。目前,文本主題挖掘技術(shù)應(yīng)用于新聞、文章等長文本數(shù)據(jù)上已經(jīng)具有了較好的效果。但是,微博文本長度較短,通常被限制在140字以下,微博信息的稀疏以及微博用詞隨意等特點大大增加了微博文本處理的難度。因此,面向微博的主題挖掘技術(shù)需要采用與傳統(tǒng)主題挖掘所不同的方法。
目前,微博主題挖掘的相關(guān)研究主要包括:(1)利用跨文檔的共現(xiàn)模式。該方法將短消息按照作者、哈希標簽等啟發(fā)式規(guī)則或文本的話題屬性集聚成長的偽文檔,然后利用三層貝葉斯結(jié)構(gòu)的主題模型挖掘潛在主題;或者直接建模整個語料庫中詞對的生成,降低短文本的數(shù)據(jù)稀疏性。(2)利用短文本語義。該方法利用詞嵌入含有豐富語義信息的特點,將短文本看作由詞嵌入組成的集合,并假設(shè)主題-單詞分布為多維高斯分布,之后利用分層貝葉斯模型推斷主題;或者整合短文本中詞-上下文間語義關(guān)聯(lián)來建模話題,在一定程度上深度理解了短文本的語義。(3)利用社交網(wǎng)絡(luò)上下文信息。這類方法引入社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,如用戶-轉(zhuǎn)發(fā)網(wǎng)絡(luò)和用戶-跟隨者網(wǎng)絡(luò),為微博文本內(nèi)容補充靜態(tài)上下文信息,從而發(fā)現(xiàn)更多的詞語共現(xiàn)特征;或者引入社交網(wǎng)絡(luò)的動態(tài)上下文,通過挖掘用戶間的動態(tài)交互及不同的用戶關(guān)注等用戶行為特征來推斷話題。
盡管以上方法已經(jīng)取得不錯的性能,但是同等看待用戶間的多種交互,如轉(zhuǎn)發(fā)、評論、關(guān)注和提及[1],忽略了社交網(wǎng)絡(luò)的異構(gòu)性和多元性對微博主題推斷的影響。在社交平臺上,基于不同的興趣以及對微博內(nèi)容的多樣理解,用戶產(chǎn)生了轉(zhuǎn)發(fā)、評論等行為,用戶間的不同交互方式對話題描述和話題傳播有本質(zhì)上不同的影響力,應(yīng)區(qū)別對待。此外,用戶具有微博內(nèi)容、興趣描述、身份認證等不同屬性,由于微博文本可能包含噪聲信息或本質(zhì)上擴大話題傳播范圍,因此不同用戶在話題推斷中有不同的重要性。這些異構(gòu)的社交上下文為基于社會媒體的微博主題挖掘任務(wù)提供了有利的線索。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服現(xiàn)有技術(shù)的不足,提供一種基于異構(gòu)社會媒體用戶動態(tài)行為的微博主題挖掘方法。該方法為建模社交網(wǎng)絡(luò)的異構(gòu)性和多元性,構(gòu)建了基于用戶交互的屬性多元異構(gòu)對話網(wǎng)絡(luò),其中節(jié)點表示用戶,邊表示用戶間的轉(zhuǎn)發(fā)、評論關(guān)系。基于不同類型的用戶交互方式,將屬性多元異構(gòu)對話網(wǎng)絡(luò)分解為帶有不同交互級語義的多個視圖;引入鄰居級注意力機制和交互級注意力機制建模不同鄰居和不同交互類型對主題推斷的影響,為用戶學(xué)習(xí)特定視圖的嵌入;進一步設(shè)計多視圖神經(jīng)變分推理,以多個視圖表示作為輸入,通過捕獲不同的視圖級話題語義間的復(fù)雜關(guān)聯(lián),生成一致性更佳的微博主題。該方法相比于現(xiàn)有模型在挖掘話題的連貫性分數(shù)(Topic Coherence Score)評價指標上是最優(yōu)的。
本發(fā)明的目的通過以下技術(shù)方案實現(xiàn):
一種基于異構(gòu)社會媒體用戶動態(tài)行為的微博主題挖掘方法,包括以下步驟:
(1)構(gòu)建屬性多元異構(gòu)網(wǎng)絡(luò)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024515.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





