[發明專利]一種基于在線社會網絡的用戶情感分析方法在審
| 申請號: | 201811254958.8 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109344331A | 公開(公告)日: | 2019-02-15 |
| 發明(設計)人: | 葉寧;凌鑫元;徐康;王娟;黃海平;程晶晶;林巧民;王汝傳;馬銘辰;賈成棟;陳龍鵬 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F16/35 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 王素琴 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 社會網絡 用戶情感 情感識別 情緒分析 日常使用 日常行為 社交網絡 用戶情緒 分析 策略性 興趣點 體征 研究 | ||
1.一種基于在線社會網絡的用戶情感分析方法,其特征在于:包括如下步驟:
步驟一:通過網絡爬蟲、分析數據包、采集日志文件以及通過調用服務商提供的API接口來開發在線社會網絡的應用的方式來收集其中的用戶數據來獲取用戶的信息;
步驟二:對于采集到的用戶數據進行處理,通過TF-IDF的技術篩選出領域高頻詞并自動訓練出相應的領域分類器,對于數據的處理包括以下幾部分:
首先去除在線社會網絡中無效轉發的操作,從而去除數據中的無效信息;
然后選出部分領域作為標注訓練集,從在線社會網絡中若干個熱門搜索主題作為領域,將收集的用戶信息進行劃分;
最后利用領域中的種子詞對收集到的用戶數據進行分類,采用Java開源包FundanNLP作為文本的分類工具進行劃分;
步驟三:提取用戶數據中的有效特征,采用通過設置Window特征以及Word2vec特征的方式來進行特征提取:
(3-1)當用戶的文本信息中存在多個評論對象時,通過設置多個window特征,將用于情感傾向性判別的特征限定在一定的范圍之內;
(3-2)Word2vec將文本中的詞轉化成向量的形式表示,以此來反映文本的語法規則以及語義特性;通過將文本轉化成空間向量,由空間向量的相似度,來表示文本語義上的相似度;通過將不同領域的微博數據作為Word2vec的輸入進行向量化,然后將得到的向量采用K-means算法進行聚類,最終將其分為若干類,得到詞與類別的映射關系;
步驟四:當抽取完特征值后采用支持向量機(SVM)作為情感判別方式對用戶情緒進行分析;基于SVM的情感極性分類任務分為以下三個部分:
(4-1)情感詞典的構建:對于情感的分析需要識別情感詞的特征值,為此可利用基準情感詞,通過大量的語料集對未知情感詞采用PMI算法進行情感極性分類擴展情感詞典采用人工選取的方式選擇情感語義非常明顯的基準情感詞,并利用如下公式設定閾值進行計算歸類;
其中m、n是正向和負向基準情感詞的個數,p(w)是待識別情感詞出現的概率,p(w,xi)是待識別情感詞和正向基準情感詞共同出現的概率,p(w,yi)是待識別情感詞和負向基準情感詞共同出現的概率;
(4-2)情感特征的選擇:情感分析特征的選取結合構建的情感詞典利用卡方法統計量選擇與情感特征相關的詞語,計算公式如下:
其中x2(w,s)表示s情感類別中詞w的卡方計量,N表示情感訓練數據集的規模,p(s,w)表示在情感類別s中包含詞w的文檔規模,表示排除情感類別s,其他情感類別包含詞w的文檔規模,表示在情感類別s中不包含詞w的文檔規模,表示在情感類別s中,不包含詞w也不在該類別中的文檔規模;
(4-3)情感極性分類:將基于用戶的情感分類分為幾種情況;
步驟五:在完成了用戶的情感判別之后,對判斷結果進行輸出。
2.根據權利要求1所述的一種基于在線社會網絡的用戶情感分析方法,其特征在于:所述步驟四的(4-3)情感極性分類中,具體的基于用戶的情感分類分為以下幾種情況:
(4-3-1)若出現了包含情感的詞語,則從情感極性表中找出對應的極值,為正向情感詞時去正極值,為負向情感詞時取負極值對于情感極性不明確的,則取其所有情感極值的期望值;
(4-3-2)出現否定詞時,則表示用戶的情感與之后出現的情感詞表的的情感相反對情感極值取反并減少情感詞對應的情感數目增量,增加反向的情感數目增量;
(4-3-3)若出現反問副詞,模型視它的出現是為了加強負向的情感極值,對于這樣的情況,提高負向情感極值;
(4-3-4)若出現程度副詞時,表示它的出現是為了加強或者減少情感極值對于程度詞修飾情感詞的情況,視程度詞級別增強或減弱情感極值。
根據如上情況,計算出單據情感極值的公式為:
其中,f(p)是正向情感傾向值,設置f(p)=1,f(n)是正向情感傾向值,設置f(n)=-1,α是正向影響因子,β是負向影響因子,設置取值范圍[0,2],兩者的值再由試驗統計分析得出,np、nn分別為正向和負向情感詞的個數,E(wi)、E(wj)分別是正向和負向情感詞極值的期望,計算公式為:
其中,m為情感詞的極值個數,wk為情感詞的極值,pk為其出現的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811254958.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法和裝置
- 下一篇:一種互聯網大數據分析提取方法及系統





