[發(fā)明專利]一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法有效
| 申請?zhí)枺?/td> | 201410504376.6 | 申請日: | 2014-09-28 |
| 公開(公告)號: | CN104268230B | 公開(公告)日: | 2017-09-15 |
| 發(fā)明(設(shè)計)人: | 陳國龍;廖祥文;黃弈超 | 申請(專利權(quán))人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州元創(chuàng)專利商標代理有限公司35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 異質(zhì)圖 隨機 游走 中文 博客 觀點 探測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及觀點挖掘技術(shù)領(lǐng)域,更具體地,涉及一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,能應(yīng)用于多話題主流觀點的發(fā)現(xiàn)和排序,適用于中文微博客,包括新浪微博、騰訊微博、網(wǎng)易微博等。
背景技術(shù)
在現(xiàn)有技術(shù)中,有很多技術(shù)方法可用于網(wǎng)民群體觀點探測。傳統(tǒng)的觀點挖掘方法通過文本的傾向性分析進行觀點挖掘,這些方法包括觀點識別、觀點檢索、觀點要素抽取、垃圾評論識別等。對這些方法進一步分類,大致包括兩個方面。一方面采用基于觀點詞表的簡單統(tǒng)計模型、基于機器學習的方法和基于自然語言處理的觀點挖掘模型等方法來挖掘網(wǎng)民觀點,這些方法主要利用了觀點詞表、上下文信息、句子級信息、詞位置鄰近關(guān)系、詞背景知識等文本信息。另一方面借助當前信息檢索和文本挖掘領(lǐng)域的最新模型提出了基于一體化模型的觀點檢索算法檢索網(wǎng)民對特定話題的觀點看法,典型的有:基于詞典的產(chǎn)生式傾向性檢索模型、基于觀點詞查詢擴展的觀點相關(guān)模型、基于主題-觀點混合的主題模型、基于外部數(shù)據(jù)集的產(chǎn)生式語言模型等。基于一體化模型的觀點挖掘由于具有堅實的統(tǒng)計理論基礎(chǔ)、更容易解釋,在觀點挖掘相關(guān)研究工作中被廣泛研究。
然而,這些方法主要從文本內(nèi)容角度出發(fā)分析挖掘網(wǎng)民群體觀點,缺乏考慮“網(wǎng)民”的信譽度、影響力等用戶關(guān)系對觀點度量的影響。并且,社會媒介的數(shù)據(jù)蘊含非常豐富可以利用的數(shù)據(jù)特征:網(wǎng)頁之間的鏈接關(guān)系、用戶之間的好友關(guān)系、網(wǎng)頁內(nèi)容的轉(zhuǎn)載關(guān)系、用戶之間的隱性交互關(guān)系等。
在現(xiàn)有技術(shù)中,存在著一些基于圖模型的方法被廣泛應(yīng)用于對社會媒介數(shù)據(jù)的挖掘。它擅長針對對象之間的各種聯(lián)系建立模型,并根據(jù)模型對社會媒介中的對象進行排序。如何基于對象之間的相互關(guān)系構(gòu)建適應(yīng)各種任務(wù)需求的網(wǎng)絡(luò)圖是基于圖模型方法的基礎(chǔ)。典型的方法有基于網(wǎng)頁的出、入鏈構(gòu)建網(wǎng)頁鏈接圖對網(wǎng)頁進行排序;搜索引擎的PageRank算法;HITS算法;LexRank算法;個性化PageRank算法;流形學習模型等。這些方法通過定義網(wǎng)絡(luò)圖空間中對象之間的度數(shù)、距離長短等,采用隨機游走算法或流形學習模型挖掘?qū)ο蟮男抛u度或影響力。
然而,這些基于圖模型的方法并沒有充分地被使用在觀點探測中。
現(xiàn)有的觀點探測方法沒有充分考慮新型短文本媒體的社會化特征。隨著近年來微博客這類社交媒介消息的不斷產(chǎn)生,產(chǎn)生了大量的富含網(wǎng)民觀點的數(shù)據(jù)資源,并需要通過數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)其中的熱點話題、意見領(lǐng)袖等信息,這就對觀點探測技術(shù)提出了一個挑戰(zhàn):如何構(gòu)建一個統(tǒng)一有效的觀點探測系統(tǒng)來滿足針對微博客進行觀點挖掘的需要。因此,迫切需要有一種高效準確的觀點探測方法,該方法應(yīng)能夠在具有多個話題的微博數(shù)據(jù)中發(fā)現(xiàn)話題關(guān)鍵詞、構(gòu)建出微博關(guān)系圖,探測每個話題的主流觀點,同時能夠在不同的微博類網(wǎng)站、不同領(lǐng)域方便地使用。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,該方法探測速度快、準確度高,通用性強,適用范圍廣。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,包括以下步驟:
步驟1:按話題采集微博帖子,形成多個以話題為單位的微博集合;對按話題采集到的微博帖子進行預(yù)處理,去除噪聲,形成詞的集合的形式;
步驟2:從微博中識別出話題的關(guān)鍵詞:計算微博中每個詞對于相應(yīng)話題的權(quán)重,然后所有詞根據(jù)權(quán)重的大小進行排序,將各話題中排序結(jié)果的前K個詞作為相應(yīng)話題的關(guān)鍵詞;
步驟3:基于圖模型探測微博中針對話題的主流觀點:構(gòu)建每條微博帖子的特征向量,然后利用微博用戶、微博帖子和關(guān)鍵詞之間的關(guān)系,以微博用戶、微博帖子、關(guān)鍵詞為節(jié)點構(gòu)建出微博圖,再通過隨機游走算法計算微博圖中各節(jié)點的得分,最終得到針對各話題的微博帖子的排序列表。
進一步的,在步驟1中,所述去除噪聲的規(guī)則為去除微博中的以下內(nèi)容:
a) 網(wǎng)頁鏈接;
b) 特殊字符;
c) 廣告相關(guān)的特殊字符;
d) 表達情感的擬聲詞。
進一步的,在步驟2中,采用類TF*IDF計算每個詞對于相應(yīng)話題的權(quán)重方法如下:
其中,t表示微博集合中按話題劃分的子集,tfj(wi)表示第i個詞在第j個話題的微博集合中出現(xiàn)的頻次,T代表話題的個數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學,未經(jīng)福州大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410504376.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種生態(tài)覆被特征表征方法
- 下一篇:打包臺架
- 基于節(jié)點簽名的保留標簽信息的異質(zhì)網(wǎng)絡(luò)嵌入方法
- 情感對話生成方法、裝置及情感對話模型訓(xùn)練方法、裝置
- 分析結(jié)果的生成方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 電子信息分析方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 基于元路徑學習與子圖采樣的APT網(wǎng)絡(luò)攻擊檢測方法
- 一種分類模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)
- 基于異質(zhì)圖表示學習的惡意域名檢測方法及裝置
- 基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的文本視覺問答實現(xiàn)方法
- 圖像層次化超像素分割方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 基于異質(zhì)圖的文本摘要方法及裝置、存儲介質(zhì)和終端





