[發明專利]一種中文文本情感識別方法在審
| 申請號: | 201310690318.2 | 申請日: | 2013-12-16 |
| 公開(公告)號: | CN103678278A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 崔現鵬;汪海燕;黎建輝;崔建業 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 文本 情感 識別 方法 | ||
1.一種中文文本情感識別方法,其步驟為:
1)分別構建包含正向詞語和負向詞語的褒貶義詞典,構建修飾程度詞語的程度詞典,構建用于確定否定詞語的否定詞典;
2)利用語法分析工具對待處理語料文本的句子進行分詞處理,得到詞語的依存關系并統計每個詞語的詞頻;
3)根據詞頻對分詞所得詞語排序,選取指定數目的詞語作為主題詞,將包含主題詞的語句標為主題句;
4)對句子中的每一詞語,判斷其是否出現在該褒貶義詞典中確定該詞語的情感初值,并根據詞語的依存關系確定出該詞語的修飾程度詞語和否定詞語,然后根據確定出的修飾程度詞語在所述程度詞典的取值確定該詞語的權重系數、根據確定出的否定詞語數目確定該詞語的極性,從而得到該詞語的情感值;然后對該句子所有詞語的情感值求和得到該句子的情感值;
5)將該待處理語料文本中的所有句子的情感值進行求和,得到該待處理語料文本的情感狀態。
2.如權利要求1所述的方法,其特征在于對該待處理語料文本中的每一句子,根據其在文中的位置賦予一權值系數,將每一句子的情感權值與對應的權值系數相乘,然后求和得到該待處理語料文本的情感狀態。
3.如權利要求2所述的方法,其特征在于句子中的每個詞語根據其在句子中的位置設置該詞語的位置系數,如果該句子中詞語的數目為L,則該句子中第一個詞語和最后一個詞語的位置系數為2/L,中間的詞語為1/L;將詞語的位置系數與該詞語的當前權重系數之和作為該詞語新的權重系數。
4.如權利要求2所述的方法,其特征在于標題句的權值系數>尾段中句子的權值系數>首段中句子的權值系數>中間段中句子的權值系數。
5.如權利要求1或2或3或4所述的方法,其特征在于計算每個主題句與標題句的相似度,如果相似度大于設定閾值,則增加該句子的權值系數。
6.如權利要求5所述的方法,其特征在于計算所述相似度的公式為:
其中S表示當前處理的句子,T表示標題句,wk(S)表示句子S中主題詞特征值,wk(T)表示標題句中主題詞的特征值。
7.如權利要求1所述的方法,其特征在于利用語法分析工具識別每一句是否為感嘆句,如果句子為感嘆句,則增加該句子的權值系數。
8.如權利要求1所述的方法,其特征在于所述程度詞典包括修飾程度為極度、高度、中度和低度的修飾程度詞語,每一級的修飾程度詞語對應一權重系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310690318.2/1.html,轉載請聲明來源鉆瓜專利網。





