[發明專利]主題特征詞抽取方法及系統、情感極性判斷方法及系統在審
| 申請號: | 201710542760.9 | 申請日: | 2017-07-05 |
| 公開(公告)號: | CN107357785A | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 劉東升;王黎明;陳毓蔚 | 申請(專利權)人: | 浙江工商大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 杭州知通專利代理事務所(普通合伙)33221 | 代理人: | 姚宇吉 |
| 地址: | 310000 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題 特征 抽取 方法 系統 情感 極性 判斷 | ||
1.一種主題特征詞抽取方法,其特征在于,包括以下步驟:
獲取社交網絡評論的文本數據;
對文本數據進行預處理,所述預處理的過程如下:使用字符串匹配與正則表達式抽取短文本的正文文本;對正文文本進行分詞;針對分詞,對照停用詞表去除停用詞;
將每條短文本的分詞在各自短文本范圍內自由組合成詞對,并將所述詞對表示成詞向量的形式;
給定參數T作為短文本中需要抽取出的主題特征詞的數量;
根據先驗知識初始化超參數α、β和γ,其中,α為主題的先驗分布,β為詞對的先驗分布,γ為情感極性的先驗分布;
利用吉布斯采樣得到主題的多項式分布,所述吉布斯采樣的過程如下:對所述文本數據中的各個短文本進行標號;結合標號,依次選取短文本,針對短文本的每一個詞對,根據多項式分布選擇一個主題和情感極性,并更新主題和情感極性的多項式分布;采樣完成得到后驗參數Θ、Φ和Π,其中,Θ為主題的多項式分布,Φ為詞對的多項式分布,Π為情感極性的多項式分布;
針對主題的多項式分布,將所述主題按照出現頻次進行排列,并根據排列結果抽取主題特征詞。
2.根據權利要求1所述的主題特征詞抽取方法,其特征在于,所述預處理的過程還包括以下步驟:針對分詞,統計分詞的詞頻,去除出現頻率低于3次的詞語。
3.根據權利要求1所述的主題特征詞抽取方法,其特征在于,所述預處理的過程還包括以下步驟:針對分詞,去除無實際意義的詞語。
4.根據權利要求1所述的主題特征詞抽取方法,其特征在于,所述吉布斯采樣的過程還包括:
利用貝葉斯公式表示出詞對、情感極性與主題的聯合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b為詞對,l為情感極性,z為主題;
通過對詞對求積分得到詞對的概率分布:
其中,Γ為伽瑪函數,i表示第i個詞對,j表示第j個主題,k表示第k個情感極性,V為詞匯表,T為主題的數量,S為情感極性的數量,ni,j,k為第i個詞對指派為主題j和情感極性k的次數;nj,k為指派為主題j和情感極性k的詞對數量;
通過對情感極性π求積分得到情感極性的概率分布:
其中,Γ為伽瑪函數,j表示第j個主題,k表示第k個情感極性,T為主題的數量,nj,k為指派為主題j和情感極性k的詞對數量,nj為指派為主題j的詞對數量;
通過對主題θ求積分得到主題的概率分布:
其中,nd,j為短文本d中確定主題j的詞對數量,nd為短文本d中的詞對數量,D為短文本的數量;
結合伽瑪函數,得到簡化的聯合概率分布:
其中,-p為當前短文本中除去p位置的所有詞對,為短文本d中除去p位置的確定主題j的詞對數量,為當前短文本中除去p位置的指派為主題j和情感極性k的詞的數量,為當前短文本中除去p位置的指派為主題j和情感極性k的詞對數量,為短文本d中除去p位置的詞對數量,為當前短文本中除去p位置的指派為主題j的詞對數量;
利用貝葉斯公式、狄利克雷共軛性質以及簡化的聯合概率分布得到:
其中,θd,j為短文本d中與主題j所對應的主題分布,為主題j與情感極性k所對應的詞對分布,πj,k為主題j與情感極性k的情感極性分布;
通過迭代求得后驗參數Θ、Φ和Π。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工商大學,未經浙江工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710542760.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于灌裝懸浮液體肥料的灌裝設備
- 下一篇:一種封箱機





