[發明專利]一種微博情感確定方法在審
| 申請號: | 201810372663.4 | 申請日: | 2018-04-24 |
| 公開(公告)號: | CN108647257A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 寧煥生;吳京京 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 微博 句式類型 情感傾向 文本 情感詞典 影響權 分句 構建 分類規則集 情感分析 預先設置 | ||
本發明提供一種微博情感確定方法,能夠提高情感分析結果的準確性。所述方法包括:構建微博情感詞典;獲取待處理微博文本;按照預先設置的句式分類規則集,確定獲取的所述待處理微博文本中各分句的句式類型及所述句式類型對情感傾向影響權值;根據構建的微博情感詞典,以及確定的待處理微博文本中各分句的句式類型及所述句式類型對情感傾向影響權值,確定所述待處理微博文本的情感傾向值。本發明適用于獲取用戶表達的情感。
技術領域
本發明涉及數據信息處理技術領域,特別是指一種微博情感確定方法。
背景技術
微博是一個基于關系的信息制造、交流、傳播以及獲取的一種集成化、開放化社交服務平臺,龐大的微博用戶群以及海量數據信息,隱藏著巨大的商業價值和社會價值,如何有效獲取用戶表達的情感成為如今各領域研究的熱點。
當前微博情感分析方法使用較為廣泛的是基于機器學習的情感分析方法。基于機器學習的情感分析方法通過將文本轉換成數字化模型,用已標注類別的訓練數據來訓練學習出一個較好的分類模型然后再利用學習出的分類模型預測未知文本的情感傾向類別,常用的機器學習算法有樸素貝葉斯(NB)、支持向量機(SVM)、最近鄰(KNN)、最大熵(ME)和決策樹方法等。
現有技術中使用的基于機器學習的情感分析方法忽視微博文本特殊性對情感傾向性影響,導致情感分析結果不夠準確。
發明內容
本發明要解決的技術問題是提供一種微博情感確定方法,以解決現有技術所存在的基于機器學習的情感分析方法忽視微博文本特殊性對情感傾向性影響,導致情感分析結果不夠準確的問題。
為解決上述技術問題,本發明實施例提供一種微博情感確定方法,包括:
構建微博情感詞典;
獲取待處理微博文本;
按照預先設置的句式分類規則集,確定獲取的所述待處理微博文本中各分句的句式類型及所述句式類型對情感傾向影響權值;
根據構建的微博情感詞典,以及確定的待處理微博文本中各分句的句式類型及所述句式類型對情感傾向影響權值,確定所述待處理微博文本的情感傾向值。
進一步地,所述構建微博情感詞典包括:
提取微博詞匯、微博表情符號,根據提取的微博詞匯、微博表情符號對基礎情感詞典進行擴展,得到微博情感詞典;
其中,所述微博情感詞典包括:微博基礎情感詞典、網絡情感詞典、微博表情符號詞典、修飾詞典。
進一步地,所述修飾詞典包括:否定詞詞典和程度副詞詞典。
進一步地,在獲取待處理微博文本之后,所述方法還包括:
對獲取的所述待處理微博文本進行預處理并進行情感標注;
其中,所述預處理包括:降噪、分詞和停用詞過濾操作,并在分詞過程中添加用戶自定義詞典。
進一步地,在按照預先設置的句式分類規則集,確定獲取的所述待處理微博文本中各分句的句式類型及所述句式類型對情感傾向影響權值之前,所述方法還包括:
構造分句算法,對獲取的所述待處理微博文本進行分句,其中,所述分句算法是針對微博文本表述不規范性進行設置的。進一步地,所述句式類型包括:簡單句和復雜句;
其中,所述簡單句包括:感嘆句、疑問句、肯定句,所述復雜句包括:反問句、轉折句、假設句、選擇句、遞進句、讓步句、總結句。
進一步地,所述待處理微博文本的情感傾向值E(p)=E(s1)+E(s2)+…+E(sn);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810372663.4/2.html,轉載請聲明來源鉆瓜專利網。





