[發明專利]一種基于語義本體庫中文文本情感分析方法有效
| 申請號: | 201710841831.5 | 申請日: | 2017-09-18 |
| 公開(公告)號: | CN107609132B | 公開(公告)日: | 2020-03-20 |
| 發明(設計)人: | 姜明;楊智聰;張旻;湯景凡;程柳;杜煉 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30;G06F40/247;G06K9/62 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 本體 中文 文本 情感 分析 方法 | ||
1.一種基于語義本體庫中文文本情感分析方法,其特征在于包括如下步驟:
步驟1、獲取關于目標對象一定數量的結構化評論組成待分析的語料庫,根據權威機構提供的情感本體庫,結合語料庫通過語義分析泛化得到情感本體庫,情感本體庫包含情感極限和情感程度;
步驟2、對情感詞匹配和情感詞關系預處理,將語料庫進行分詞、文本分析、匹配本體庫和評論句子中情感詞,標注情感詞的情感信息以及上下文對應的依存關系;其中,情感信息包含詞的情感強度、情感極性和情感詞詞性;
步驟3、情感計算和情感傾向判斷;
根據評論中情感信息以及依存關系,結合系統規則進行情感值計算,確定評論的情感傾向再結合機器學習方法二次處理,得到最終情感傾向結果;
步驟1所述情感本體庫構建,具體步驟如下:
步驟1-1.使用網絡機構中現有權威的情感本體庫,去掉重復詞之后作為原始本體庫;
步驟1-2.從知網中下載同義詞林,將原始本體庫進行同義擴充;
步驟1-3.為了得到豐富的情感本體庫,引入word2vec工具,該工具能根據輸入樣本泛化推理得到和情感詞語義相似的詞;首先,將評論數據通過word2vec訓練,得到向量空間,將本體庫內情感詞輸入與樣本空間中的詞做相似計算,取出相似排名靠前的5個相似詞;使用SO_PMI公式分別計算本體庫情感詞和篩選出的相似詞的相關度,篩選得到更為豐富的情感本體庫;
SO_PMI定義了點互信息量的概念,用來計算兩個詞之間的語義相關性:
P(w1&w2)表示詞w1和w2同時出現的概率,C(w1&w2)表示詞w1和w2同時出現的次數,N代表頻率;P(w1)表示詞w1出現的概率,P(w2)表示詞w2出現的概率;C(w1)表示詞w1出現的次數,C(w2)表示詞w2出現的次數;
對于未知情感的候選詞語cw和情感強度i的基準情感詞語集合BSWi;基于點互信息的語義傾向值SO_PMI(cw,BSWi)為候選詞語cw和BSWi中所有的基準情感詞語的點互信息之和:
最后,得到候選詞語cw的情感傾向為:
Pwords表示正向種子詞集,Nwords表示負向種子詞集;
步驟2情感詞匹配和情感詞關系預處理,具體步驟如下:
步驟2-1.利用分詞工具和自定義用戶詞典進行分詞,然后結合哈工大句法分析平臺,將評論轉換為tri-gram形式,組成語義依存關系隊列;
步驟2-2.語義依存關系隊列包含每個詞的位置、詞性標注以及前詞后詞的位置關系,能充分定位情感詞的位置以及該情感詞所修飾的名詞;
2-2-1.通過匹配情感本體庫,定位情感詞的情感初始極性以及程度修飾權值;
2-2-2.得到情感詞的位置信息,將情感詞抽取出來構建情感詞的特征列表;特征列表包含情感詞的位置、情感極性和權值;
步驟3所述的情感計算和情感傾向判斷,具體如下:
步驟3-1.針對步驟2-1得到語義依存關系隊列,構建本體庫中匹配情感詞信息,使用短語情感傾向評估法來近似計算評論的情感傾向;
步驟3-2.采用SVM分類器為后續未知情感極性評論進行分類;
對語料庫中已標記過的評論進行訓練,80%的評論作為訓練集,20%的評論作為測試集;訓練集的具體處理如下:
首先通過分詞,刪除停用詞;
其次從步驟2-2中匹配情感詞,并賦予情感詞的權重;
然后將訓練集中每條評論轉換成特征向量,訓練SVM分類器,再進行分類,結合上文規則判斷結果得到最終評論情感傾向。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710841831.5/1.html,轉載請聲明來源鉆瓜專利網。





