[發(fā)明專利]主題特征詞抽取方法及系統(tǒng)、情感極性判斷方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710542760.9 | 申請日: | 2017-07-05 |
| 公開(公告)號: | CN107357785A | 公開(公告)日: | 2017-11-17 |
| 發(fā)明(設(shè)計)人: | 劉東升;王黎明;陳毓蔚 | 申請(專利權(quán))人: | 浙江工商大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 杭州知通專利代理事務(wù)所(普通合伙)33221 | 代理人: | 姚宇吉 |
| 地址: | 310000 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 主題 特征 抽取 方法 系統(tǒng) 情感 極性 判斷 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,涉及社交網(wǎng)絡(luò)文本信息處理與文本情感極性判斷技術(shù)領(lǐng)域,特別涉及一種主題特征詞抽取方法及系統(tǒng)、情感極性判斷方法及系統(tǒng)。
背景技術(shù)
20世紀末,互聯(lián)網(wǎng)產(chǎn)品模式主要是以網(wǎng)站雇員主導生成內(nèi)容的形式。而現(xiàn)如今,互聯(lián)網(wǎng)的內(nèi)容是由用戶為主導產(chǎn)生的,每個用戶已不僅僅是互聯(lián)網(wǎng)的接收者,同時也是互聯(lián)網(wǎng)內(nèi)容的制造者。因此,為了區(qū)別于以往的互聯(lián)網(wǎng)模式,提出了web2.0的概念。隨著新聞評論、微博、博客、BBS等社交網(wǎng)絡(luò)的快速發(fā)展,web2.0時代下的互聯(lián)網(wǎng)上用戶原創(chuàng)內(nèi)容(User Generated Content,簡稱UGC)呈指數(shù)級的爆炸式增長。另一方面,隨著移動端的普及,受到屏幕輸入限制以及用戶本身書寫習慣等原因,用戶在社交網(wǎng)絡(luò)上發(fā)布的內(nèi)容越來越精煉,各種形式的短文本(即文本長度較短的文本數(shù)據(jù))更易產(chǎn)生。目前,短文本數(shù)據(jù)量與日俱增,對短文本的內(nèi)容挖掘可在話題跟蹤與發(fā)現(xiàn)、情感極性判斷、輿情監(jiān)測與預(yù)警等領(lǐng)域有著廣泛的應(yīng)用前景。
然而,短文本信息的處理方法與傳統(tǒng)意義上的文本(即文本長度較長的文本數(shù)據(jù),簡稱長文本)的大不相同。長文本一般數(shù)據(jù)量足夠大,樣本特征空間豐富,經(jīng)過數(shù)據(jù)預(yù)處理階段,如降維、去噪等過程后,長文本核心信息依舊得以保留,在形成文本矩陣時不會出現(xiàn)大量零元素。而短文本自身所包含的詞語較少,經(jīng)過數(shù)據(jù)預(yù)處理后,本身的特征空間已不足以表達有效的語言含義。因此,傳統(tǒng)的文本信息處理方法在短文本的內(nèi)容挖掘時準確性較差,不適合用于短文本的主題特征詞抽取和情感極性判斷。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種主題特征詞抽取方法及系統(tǒng)、情感極性判斷方法及系統(tǒng),可以應(yīng)用到短文本信息處理技術(shù)領(lǐng)域,實現(xiàn)短文本主題特征詞的準確抽取和情感極性的準確判斷。
為了解決上述技術(shù)問題,本發(fā)明采用了下述技術(shù)方案:
本發(fā)明提出一種主題特征詞抽取方法,其包括以下步驟:
獲取社交網(wǎng)絡(luò)評論的文本數(shù)據(jù);
對文本數(shù)據(jù)進行預(yù)處理,預(yù)處理的過程如下:使用字符串匹配與正則表達式抽取短文本的正文文本;對正文文本進行分詞;針對分詞,對照停用詞表去除停用詞;
將每條短文本的分詞在各自短文本范圍內(nèi)自由組合成詞對,并將詞對表示成詞向量的形式;
給定參數(shù)T作為短文本中需要抽取出的主題特征詞的數(shù)量;
根據(jù)先驗知識初始化超參數(shù)α、β和γ,其中,α為主題的先驗分布,β為詞對的先驗分布,γ為情感極性的先驗分布;
利用吉布斯采樣得到主題的多項式分布,吉布斯采樣的過程如下:對文本數(shù)據(jù)中的各個短文本進行標號;結(jié)合標號,依次選取短文本,針對短文本的每一個詞對,根據(jù)多項式分布選擇一個主題和情感極性,并更新主題和情感極性的多項式分布;采樣完成得到后驗參數(shù)Θ、Φ和Π,其中,Θ為主題的多項式分布,Φ為詞對的多項式分布,Π為情感極性的多項式分布;
針對主題的多項式分布,將主題按照出現(xiàn)頻次進行排列,并根據(jù)排列結(jié)果抽取主題特征詞。
優(yōu)選的,預(yù)處理的過程還包括以下步驟:針對分詞,統(tǒng)計分詞的詞頻,去除出現(xiàn)頻率低于3次的詞語。
優(yōu)選的,預(yù)處理的過程還包括以下步驟:針對分詞,去除無實際意義的詞語。
優(yōu)選的,吉布斯采樣的過程還包括:
利用貝葉斯公式表示出詞對、情感極性與主題的聯(lián)合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b為詞對,l為情感極性,z為主題;
通過對詞對求積分得到詞對的概率分布:
其中,Γ為伽瑪函數(shù),i表示第i個詞對,j表示第j個主題,k表示第k個情感極性,V為詞匯表,T為主題的數(shù)量,S為情感極性的數(shù)量,ni,j,k為第i個詞對指派為主題j和情感極性k的次數(shù);nj,k為指派為主題j和情感極性k的詞對數(shù)量;
通過對情感極性π求積分得到情感極性的概率分布:
其中,Γ為伽瑪函數(shù),j表示第j個主題,k表示第k個情感極性,T為主題的數(shù)量,nj,k為指派為主題j和情感極性k的詞對數(shù)量,nj為指派為主題j的詞對數(shù)量;
通過對主題θ求積分得到主題的概率分布:
其中,nd,j為短文本d中確定主題j的詞對數(shù)量,nd為短文本d中的詞對數(shù)量,D為短文本的數(shù)量;
結(jié)合伽瑪函數(shù),得到簡化的聯(lián)合概率分布:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工商大學,未經(jīng)浙江工商大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710542760.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種用于灌裝懸浮液體肥料的灌裝設(shè)備
- 下一篇:一種封箱機





