[發明專利]一種基于情感詞典加權的酒店評論情感極性分類方法在審
| 申請號: | 202110752833.3 | 申請日: | 2021-07-03 |
| 公開(公告)號: | CN113673239A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 謝曉蘭;李新飛;陳靈彬;劉亞榮 | 申請(專利權)人: | 桂林理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F40/216;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 情感 詞典 加權 酒店 評論 極性 分類 方法 | ||
1.一種基于情感詞典加權的酒店評論情感極性分類方法,其特征在于,包括了以下的步驟:
S1:獲取酒店評論數據:首先選取中國科學院譚松波博士提供的較大規模的中文酒店評論語料公開數據集,主要包含褒貶兩種情感評論,為情感分析提供了供于研究的數據;
S2:酒店評論數據預處理:包括去除停用詞以及分詞,停用詞表使用哈工大停用詞表,以及自定義高頻酒店名詞停用詞如酒店、床、客房等,采用中文結巴分詞的全模式,快速把去除停用詞后的句子中的詞語掃描出來;
S3:TFIDF詞頻權重技術構建詞向量矩陣:提取特征詞,對文檔詞語進行歸一化處理,用以評估某些特征詞的重要性構建特征詞向量矩陣;
S4:改進TFIDF詞頻權重算法:酒店評論數據沒有固定的情感詞典語料,對測試集文本中出現的情感詞典特征詞向量預測不準的樣本進行回歸測試,即將錯誤樣本中的情感特征詞向量根據詞頻重要性再次回歸存入情感詞典,而基礎情感詞典采用知網Hownet情感詞典,構建改進TFIDF詞頻權重算法;
S5:樸素貝葉斯算法構建文本情感極性分類器:構建基于情感詞典加權的用于預測酒店評論數據的中文文本情感極性分類模型;
S6:利用酒店評論語料公開數據集訓練分類器模型:酒店評論數據集分四種規模數據共一萬條,這里采用留出法互斥的將數據集劃分為兩個集合,將全部數據集按1∶4分為測試集與訓練集;
S7:利用構建好的情感極性分類模型進行分類:這里的測試集評論為劃分好的酒店評論語料公開數據集;
所述步驟S2酒店評論數據預處理包括去除停用詞以及分詞;
所述去除停用詞以及分詞是利用已定義停用詞表去除數據集中的無關詞語,包括連詞、符號、外文等影響分詞以及構建詞向量矩陣的詞語,減少停用詞對中文文本分析時的干擾,使得模型訓練時忽略某些無用的字或詞,從而提高模型學習的效率,采用中文結巴分詞的全模式,快速把去除停用詞后的句子中的詞語掃描出來,為構建詞向量矩陣并且訓練模型做準備;
所述步驟S3 TFIDF詞頻權重技術構建詞向量矩陣包括特征提取和tfidf值計算;
所述特征提取是利用TfidfVectorizer類對文本做詞頻逆頻率分析形成詞頻矩陣生成一個長度為|V|的特征詞匯表,再生成一個N*|D|的矩陣,N為酒店評論文本數,則A[i,j]代表特征詞匯表中第j個詞在第i個文檔中出現的次數;特征詞在所有文檔中出現的頻率越高,則它在區分該文檔屬性方面越重要,如果特征詞出現的范圍越廣,只在少量文檔中有較高的出現頻率,則它擁有較高的權重;
所述tfidf值計算是計算詞頻及逆文檔頻率,可以反映某些特征的重要性以及忽略某些無意義的特征,基本TFIDF算法公式如下:
tfidf=tfij*idfj=tfij*log(N/nj) (1)
tfij指特征詞向量t在文本di中出現的次數即詞頻;idfj指出現特征詞向量t的文本的倒數,總文本數為N,包含特征詞向量的文本數為nj;
所述步驟S4改進TFIDF詞頻權重算法,針對特定領域的酒店評論數據,由于沒有固定的情感詞典、停用詞表等,會對預測的準確率造成影響降低準度,這里對測試數據集文本中出現的情感詞典特征詞向量預測不準的樣本進行回歸測試,即將錯誤樣本中的情感特征詞向量根據詞頻重要性再次回歸存入情感詞典,賦予這些詞向量一個基于情感詞典的權重,使其具有較高的類別特征,改進后tfidf的權重公式為:
tfidf=tfidf(1-tfidf),tj∈Dsenti (2)
tj為錯誤匹配數據集中的特征詞向量,Dsenti為情感詞典,這里加權后的tfidf值是一個比原權重值正比線性的權重;
所述步驟S5樸素貝葉斯算法構建文本情感極性分類器,包括以下步驟;
S51:樸素代表各個特征之間相互獨立,待訓練數據T={(x1,y1),(x2,y2)...(xN,yN)},其中xi=(xi(1),xi(2)...xi(n))T,xi(j)是第i個樣本的第j個特征,即待訓練酒店評論數據中第i條評論文本數據中的第j個特征詞,xi(j)∈{aj1,aj2...aji},aji是第j個特征詞可能取的值,yi∈{c1,c2...cK}只有正負兩類即0和1,分別代表消極和積極情感代表的文本類別;
計算先驗概率和條件概率:
S52:對于給定的數據xi=(xi(1),xi(2)...xi(n))T,計算后驗概率:
S53:確定其為正向情感的概率值:
所述P(Y=ck)是指文本屬于某一類別的概率,這里指酒店評論文本數據屬于某一類別的概率,doc(ck)為文本數據為類別ck的個數;
為防止其條件概率P(X(j)=x(j)|Y=ck)的值為0,導致某一特征的概率為0致使其他所有數據無效,這里采用Laplace轉換即貝葉斯估計,|V|為特征X(j)=aji取值個數,同理先驗概率也采取拉普拉斯轉換;
所述步驟S6利用酒店評論語料公開數據集訓練分類器模型,一般為保證相似的數據得到相似的結果,測試集和訓練集在同一個數據集中選取,酒店評論數據集分四種規模數據共一萬條,將全部數據集按1∶4分為測試集與訓練集,為保證模型推薦的準確性可根據準確率、精確率、召回率和F1值進行評估,修改相應參數保證模型的最優;
所述步驟S7利用構建好的情感極性分類模型進行分類,這里的測試集評論為劃分好的酒店評論語料公開數據集,將劃分好的測試集數據送入訓練好的基于情感詞典加權的情感極性分類器得出其準確率等評估指標,為消費者和商家提供更精確的決策支持。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林理工大學,未經桂林理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110752833.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種光纖光柵動態變化解調裝置
- 下一篇:一種微生物的檢測方法及其應用





