[發(fā)明專利]一種基于在線社會網(wǎng)絡(luò)的用戶情感分析方法在審
| 申請?zhí)枺?/td> | 201811254958.8 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109344331A | 公開(公告)日: | 2019-02-15 |
| 發(fā)明(設(shè)計)人: | 葉寧;凌鑫元;徐康;王娟;黃海平;程晶晶;林巧民;王汝傳;馬銘辰;賈成棟;陳龍鵬 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F16/35 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 王素琴 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 社會網(wǎng)絡(luò) 用戶情感 情感識別 情緒分析 日常使用 日常行為 社交網(wǎng)絡(luò) 用戶情緒 分析 策略性 興趣點 體征 研究 | ||
1.一種基于在線社會網(wǎng)絡(luò)的用戶情感分析方法,其特征在于:包括如下步驟:
步驟一:通過網(wǎng)絡(luò)爬蟲、分析數(shù)據(jù)包、采集日志文件以及通過調(diào)用服務(wù)商提供的API接口來開發(fā)在線社會網(wǎng)絡(luò)的應(yīng)用的方式來收集其中的用戶數(shù)據(jù)來獲取用戶的信息;
步驟二:對于采集到的用戶數(shù)據(jù)進行處理,通過TF-IDF的技術(shù)篩選出領(lǐng)域高頻詞并自動訓(xùn)練出相應(yīng)的領(lǐng)域分類器,對于數(shù)據(jù)的處理包括以下幾部分:
首先去除在線社會網(wǎng)絡(luò)中無效轉(zhuǎn)發(fā)的操作,從而去除數(shù)據(jù)中的無效信息;
然后選出部分領(lǐng)域作為標注訓(xùn)練集,從在線社會網(wǎng)絡(luò)中若干個熱門搜索主題作為領(lǐng)域,將收集的用戶信息進行劃分;
最后利用領(lǐng)域中的種子詞對收集到的用戶數(shù)據(jù)進行分類,采用Java開源包FundanNLP作為文本的分類工具進行劃分;
步驟三:提取用戶數(shù)據(jù)中的有效特征,采用通過設(shè)置Window特征以及Word2vec特征的方式來進行特征提取:
(3-1)當用戶的文本信息中存在多個評論對象時,通過設(shè)置多個window特征,將用于情感傾向性判別的特征限定在一定的范圍之內(nèi);
(3-2)Word2vec將文本中的詞轉(zhuǎn)化成向量的形式表示,以此來反映文本的語法規(guī)則以及語義特性;通過將文本轉(zhuǎn)化成空間向量,由空間向量的相似度,來表示文本語義上的相似度;通過將不同領(lǐng)域的微博數(shù)據(jù)作為Word2vec的輸入進行向量化,然后將得到的向量采用K-means算法進行聚類,最終將其分為若干類,得到詞與類別的映射關(guān)系;
步驟四:當抽取完特征值后采用支持向量機(SVM)作為情感判別方式對用戶情緒進行分析;基于SVM的情感極性分類任務(wù)分為以下三個部分:
(4-1)情感詞典的構(gòu)建:對于情感的分析需要識別情感詞的特征值,為此可利用基準情感詞,通過大量的語料集對未知情感詞采用PMI算法進行情感極性分類擴展情感詞典采用人工選取的方式選擇情感語義非常明顯的基準情感詞,并利用如下公式設(shè)定閾值進行計算歸類;
其中m、n是正向和負向基準情感詞的個數(shù),p(w)是待識別情感詞出現(xiàn)的概率,p(w,xi)是待識別情感詞和正向基準情感詞共同出現(xiàn)的概率,p(w,yi)是待識別情感詞和負向基準情感詞共同出現(xiàn)的概率;
(4-2)情感特征的選擇:情感分析特征的選取結(jié)合構(gòu)建的情感詞典利用卡方法統(tǒng)計量選擇與情感特征相關(guān)的詞語,計算公式如下:
其中x2(w,s)表示s情感類別中詞w的卡方計量,N表示情感訓(xùn)練數(shù)據(jù)集的規(guī)模,p(s,w)表示在情感類別s中包含詞w的文檔規(guī)模,表示排除情感類別s,其他情感類別包含詞w的文檔規(guī)模,表示在情感類別s中不包含詞w的文檔規(guī)模,表示在情感類別s中,不包含詞w也不在該類別中的文檔規(guī)模;
(4-3)情感極性分類:將基于用戶的情感分類分為幾種情況;
步驟五:在完成了用戶的情感判別之后,對判斷結(jié)果進行輸出。
2.根據(jù)權(quán)利要求1所述的一種基于在線社會網(wǎng)絡(luò)的用戶情感分析方法,其特征在于:所述步驟四的(4-3)情感極性分類中,具體的基于用戶的情感分類分為以下幾種情況:
(4-3-1)若出現(xiàn)了包含情感的詞語,則從情感極性表中找出對應(yīng)的極值,為正向情感詞時去正極值,為負向情感詞時取負極值對于情感極性不明確的,則取其所有情感極值的期望值;
(4-3-2)出現(xiàn)否定詞時,則表示用戶的情感與之后出現(xiàn)的情感詞表的的情感相反對情感極值取反并減少情感詞對應(yīng)的情感數(shù)目增量,增加反向的情感數(shù)目增量;
(4-3-3)若出現(xiàn)反問副詞,模型視它的出現(xiàn)是為了加強負向的情感極值,對于這樣的情況,提高負向情感極值;
(4-3-4)若出現(xiàn)程度副詞時,表示它的出現(xiàn)是為了加強或者減少情感極值對于程度詞修飾情感詞的情況,視程度詞級別增強或減弱情感極值。
根據(jù)如上情況,計算出單據(jù)情感極值的公式為:
其中,f(p)是正向情感傾向值,設(shè)置f(p)=1,f(n)是正向情感傾向值,設(shè)置f(n)=-1,α是正向影響因子,β是負向影響因子,設(shè)置取值范圍[0,2],兩者的值再由試驗統(tǒng)計分析得出,np、nn分別為正向和負向情感詞的個數(shù),E(wi)、E(wj)分別是正向和負向情感詞極值的期望,計算公式為:
其中,m為情感詞的極值個數(shù),wk為情感詞的極值,pk為其出現(xiàn)的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811254958.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 實現(xiàn)演變點發(fā)現(xiàn)的社會網(wǎng)絡(luò)演化分析方法及系統(tǒng)
- 基于云計算的社會網(wǎng)絡(luò)劃分方法及系統(tǒng)
- 用于社會化網(wǎng)絡(luò)的全擋風(fēng)屏平視顯示界面
- 一種社會網(wǎng)絡(luò)中的鄰域跟隨社區(qū)發(fā)現(xiàn)方法
- 一種基于異構(gòu)社會網(wǎng)絡(luò)的檢測方法
- 基于三度影響力原則的社會網(wǎng)絡(luò)影響力最大化的方法
- 一種社會網(wǎng)絡(luò)同步的實現(xiàn)方法
- 一種社會網(wǎng)絡(luò)中的社會成員挖掘系統(tǒng)
- 基于動力距離更新的社區(qū)檢測方法
- 一種社會事件網(wǎng)絡(luò)文本的輿情計算與推演方法及系統(tǒng)





