[發(fā)明專利]一種展示社交媒體熱點(diǎn)子話題的文本可視化方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110303027.8 | 申請(qǐng)日: | 2021-03-22 |
| 公開(公告)號(hào): | CN113157908B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計(jì))人: | 周鋒;王煜輝;李小勇;張玙靜 | 申請(qǐng)(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號(hào): | G06F16/34 | 分類號(hào): | G06F16/34;G06F16/35;G06F40/216;G06F40/284 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 展示 社交 媒體 點(diǎn)子 話題 文本 可視化 方法 | ||
本發(fā)明提供了一種展示社交媒體熱點(diǎn)子話題的文本可視化方法,包括如下步驟:步驟S101,輸入社交媒體文本語料集,得到文檔詞項(xiàng)矩陣;步驟S102,計(jì)算詞與詞之間的共現(xiàn)后驗(yàn)概率矩陣;步驟S103,計(jì)算未在原始短文本中出現(xiàn)的詞可以填充到該文本中的概率,將概率最大的N個(gè)詞填充到原始短文本后;步驟S104,文本聚類;步驟S105,對(duì)步驟S104得到的各個(gè)文本簇分別提取關(guān)鍵短語和關(guān)鍵語句;步驟S106,基于關(guān)鍵短語對(duì)各個(gè)文本簇分別生成詞云圖;步驟S107,使用FoamTree組合各個(gè)詞云圖進(jìn)行文本可視化;步驟S108,使用JavaScript監(jiān)聽到維諾圖某個(gè)區(qū)域被點(diǎn)擊時(shí)展示對(duì)應(yīng)文本簇的關(guān)鍵語句。采用本發(fā)明的方法,可以清楚地區(qū)分出社交媒體文本語料集的各個(gè)子話題,對(duì)社交媒體輿情監(jiān)測(cè)具有一定意義。
技術(shù)領(lǐng)域
本發(fā)明涉及文本可視化技術(shù)領(lǐng)域,特別是涉及一種可以根據(jù)社交媒體文本的語義信息區(qū)分出各個(gè)熱點(diǎn)子話題的文本可視化方法。
背景技術(shù)
以短文本為主要信息傳播載體的媒體平臺(tái)在社會(huì)中扮演越來越重要的角色,社交媒體平臺(tái)每天都會(huì)產(chǎn)生大量的數(shù)據(jù),其中包含了大量的社會(huì)輿論事件,挖掘出某一突發(fā)熱點(diǎn)事件所包含的各個(gè)子話題對(duì)于研究突發(fā)熱點(diǎn)事件所包含的網(wǎng)絡(luò)輿情信息具有重大意義。為了從海量文本數(shù)據(jù)中挖掘資源的內(nèi)在價(jià)值,基于主題的文本挖掘技術(shù)已經(jīng)成為數(shù)據(jù)挖掘中重要的信息提取手段。文檔的主題挖掘或主題詞提取,結(jié)果更具有代表性,更能表達(dá)文本的主要信息與數(shù)據(jù)的隱藏價(jià)值。文本挖掘技術(shù)主要類別包括分類和聚類。分類將數(shù)據(jù)項(xiàng)分配給借助標(biāo)簽訓(xùn)練數(shù)據(jù)創(chuàng)建的多個(gè)預(yù)定義類別之一。另一方面,聚類旨在基于數(shù)據(jù)項(xiàng)之間的相似性將給定的一組數(shù)據(jù)項(xiàng)劃分為多個(gè)類別。由于為了從任何主題下的文本媒體數(shù)據(jù)中查找子話題,并且沒有任何預(yù)定義的類別或訓(xùn)練數(shù)據(jù),所以聚類方法是話題發(fā)現(xiàn)的常用方法。與普通文本相比,以短文本為代表的社交媒體數(shù)據(jù)存在稀疏性問題。稀疏性導(dǎo)致了單詞共現(xiàn)不足、上下文信息不足等問題,傳統(tǒng)的文本聚類算法在短文本環(huán)境下的效果較差。因此為了提高短文本聚類算法的效果,近年有許多關(guān)于短文本特征擴(kuò)展算法的研究,但大多數(shù)的研究或基于外部語料集或基于復(fù)雜的機(jī)器學(xué)習(xí)模型。
文本挖掘挖掘出的信息依然不能滿足人們利用瀏覽或者篩選等方式對(duì)文本數(shù)據(jù)進(jìn)行合理的分析、理解和應(yīng)用。為了應(yīng)對(duì)這種挑戰(zhàn),文本可視化技術(shù)應(yīng)運(yùn)而生,它將文本中復(fù)雜的或者難以通過文字表達(dá)的內(nèi)容和規(guī)律以符號(hào)的形式表現(xiàn)出來,同時(shí)向人們提供與視覺信息進(jìn)行快速交互的功能,使人們可以利用與生俱來的視覺感知能力快速獲取文本的關(guān)鍵信息。但是目前主流的可視化技術(shù)都不能很好地根據(jù)語義或者上下文信息展示某個(gè)大的話題下的各個(gè)小的子話題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明設(shè)計(jì)了一種展示社交媒體熱點(diǎn)子話題的文本可視化方法,包括如下步驟:
步驟S101,輸入社交媒體文本語料集,進(jìn)行數(shù)據(jù)清洗和停用詞過濾,得到文檔詞項(xiàng)矩陣;
步驟S102,根據(jù)詞與詞是否在同一文檔中共同出現(xiàn)計(jì)算詞與詞之間的共現(xiàn)后驗(yàn)概率矩陣;
步驟S103,根據(jù)詞與詞之間的共現(xiàn)后驗(yàn)概率,基于在原始短文本中出現(xiàn)的詞計(jì)算未在原始短文本中出現(xiàn)的詞可以填充到該文本中的概率,將概率最大的N個(gè)詞填充到原始短文本中完成特征擴(kuò)展以解決短文本語義稀疏性的問題;
步驟S104,在數(shù)據(jù)預(yù)處理后的語料集上進(jìn)行文本聚類;
步驟S105,對(duì)步驟S104得到的各個(gè)文本簇分別提取關(guān)鍵短語和關(guān)鍵語句;
步驟S106,基于關(guān)鍵短語對(duì)每個(gè)文本簇分別生成詞云圖;
步驟S107,使用維諾圖JavaScript框架FoamTree組合步驟S106生成的各個(gè)詞云圖進(jìn)行文本可視化;
步驟S108,使用JavaScript的事件監(jiān)聽器監(jiān)聽到維諾圖的某個(gè)區(qū)域被點(diǎn)擊時(shí)展示對(duì)應(yīng)文本簇的關(guān)鍵語句。
步驟S102中計(jì)算詞與詞之間的共現(xiàn)后驗(yàn)概率符合以下公式:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110303027.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





