[發(fā)明專(zhuān)利]一種基于主題詞的社交媒體事件主題識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910766747.0 | 申請(qǐng)日: | 2019-08-20 |
| 公開(kāi)(公告)號(hào): | CN110457711B | 公開(kāi)(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 費(fèi)高雷;李家傳;于富財(cái);胡光岷 | 申請(qǐng)(專(zhuān)利權(quán))人: | 電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06F40/289 | 分類(lèi)號(hào): | G06F40/289;G06F16/33;G06F16/35 |
| 代理公司: | 成都虹盛匯泉專(zhuān)利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題詞 社交 媒體 事件 主題 識(shí)別 方法 | ||
1.一種基于主題詞的社交媒體事件主題識(shí)別方法,其特征在于,包括以下步驟:
S1、對(duì)社交媒體文本進(jìn)行降噪處理;
S2、計(jì)算詞和事件關(guān)于主題的分布向量;具體實(shí)現(xiàn)方法為:
事件關(guān)于主題的分布為:給定預(yù)定義的主題集合T={t1,t2...tn},同時(shí)給定人工標(biāo)注的訓(xùn)練集合S={(e1,t1),(e2,t2)...(en,tn)},其中e表示事件簇所包含的所有推文集合,t表示人工對(duì)事件簇標(biāo)記的事件主題,由集合S計(jì)算出的所有事件關(guān)于主題t的分布V(t);
詞關(guān)于主題的分布為:給定預(yù)定義的主題集合T,訓(xùn)練集合S,由集合S計(jì)算出的詞關(guān)于主題t的分布W(t),其中W(t)表示每個(gè)詞在話題集合T中的分布向量;
由上述關(guān)于詞的主題分布的定義,得到詞的分布向量的計(jì)算過(guò)程如下所示:
其中count(w,ti)表示單詞w在ti下的頻數(shù),count(w)表示w在所有話題下的出現(xiàn)總次數(shù);
由上述關(guān)于事件的主題分布的定義,得到事件的分布向量的計(jì)算過(guò)程如下所示:
其中,count(e,ti)表示主題ti下事件的頻數(shù),count(e)表示在所有主題下e的總出現(xiàn)頻數(shù);
S3、提取社交媒體文本中事件主題詞;
S4、構(gòu)建基于主題詞的貝葉斯推斷模型。
2.根據(jù)權(quán)利要求1所述的一種基于主題詞的社交媒體事件主題識(shí)別方法,其特征在于,所述步驟S1包括以下子步驟:
S11、停止詞去除;
S12、詞干提取和詞形還原;
S13、使用Jaccard系數(shù)合并形近詞;Jaccard系數(shù)用于衡量?jī)蓚€(gè)集合的相似性,給定兩個(gè)集合A、B,Jaccard系數(shù)定義為:
通過(guò)將兩個(gè)單詞word1與單詞word2分別看作字符的集合,分別將其分解為字符的集合w1和w2,定義兩個(gè)單詞的Jaccard系數(shù)為J(w1,w2);設(shè)置詞的相似性閾值為Jmin,即若單詞的相似度J(w1,w2)≥Jmin,則認(rèn)為兩個(gè)單詞為同一個(gè)正確單詞的錯(cuò)誤拼寫(xiě)形式,將這些詞視為同一個(gè)詞。
3.根據(jù)權(quán)利要求1所述的一種基于主題詞的社交媒體事件主題識(shí)別方法,其特征在于,所述步驟S3具體實(shí)現(xiàn)方法為:使用相對(duì)熵KL散度來(lái)作為主題詞的判斷依據(jù);
定義事件主題詞如下:一個(gè)詞是事件主題詞必然滿足下述條件:
其中,KLmin表示預(yù)設(shè)的主題詞篩選閾值,W(t)表示每個(gè)詞在話題集合T中的分布向量,V(t)表示由集合S計(jì)算出的所有事件關(guān)于主題t的分布向量。
4.根據(jù)權(quán)利要求1所述的一種基于主題詞的社交媒體事件主題識(shí)別方法,其特征在于,所述步驟S4具體實(shí)現(xiàn)方法為:通過(guò)對(duì)社交媒體文本的統(tǒng)計(jì)分析,計(jì)算出每個(gè)詞關(guān)于主題的分布,根據(jù)最大似然估計(jì)的角度,使用p(t/w)表示單詞w能夠區(qū)分事件主題t的概率;通過(guò)聚合每個(gè)事件簇中所有的推文,把所有推文文本進(jìn)行預(yù)處理,然后使用主題詞提取算法提取出文本中包含的所有主題詞;
定義事件主題分類(lèi)任務(wù)為:在給定事件的推文簇Ctweets(e)后,通過(guò)使用預(yù)處理技術(shù)得到其中所有的單詞集合Wwords(e),然后利用主題詞提取算法得到主題詞集合Cwords(e),最后計(jì)算出集合Ctweets(e)對(duì)應(yīng)的事件屬于每一個(gè)主題t的概率值p(t/Cwords(e))
使用p(t/w)表示單詞w能夠區(qū)分事件主題t的概率,使用p(w)表示整個(gè)事件簇單詞中w所占的比例;定義上述概率的計(jì)算公式如下所示:
其中,count(w)表示單詞w在數(shù)據(jù)集中的頻數(shù),count(w,t)表示出現(xiàn)于t話題下的w頻數(shù),count_all表示所有詞的總出現(xiàn)頻數(shù);
基于上述概率計(jì)算過(guò)程計(jì)算出事件簇屬于每個(gè)主題的概率,并且選擇具有最高概率的主題作為事件的主題。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910766747.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 域詞典創(chuàng)建
- 一種設(shè)備故障解決方案知識(shí)管理與檢索系統(tǒng)及方法
- 一種基于主題數(shù)據(jù)庫(kù)的文獻(xiàn)檢索方法及系統(tǒng)
- 基于MeSH的醫(yī)學(xué)文獻(xiàn)集相似性度量方法
- 一種基于流式LDA主題模型發(fā)現(xiàn)文檔隱含主題和主題詞的方法
- 祝福語(yǔ)文本生成方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于推送信息的方法和裝置
- 主題詞提取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 完善主題詞的全文數(shù)據(jù)庫(kù)精準(zhǔn)高效檢索方法
- 佛學(xué)主題詞識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢(xún)意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





