[發明專利]根據對社會事件的文字描述來預測社會情感的方法及系統有效
| 申請號: | 201210272225.3 | 申請日: | 2012-08-01 |
| 公開(公告)號: | CN102831184A | 公開(公告)日: | 2012-12-19 |
| 發明(設計)人: | 胡衛明;王麒深;吳偶;祝守宇 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 根據 社會 事件 文字描述 預測 情感 方法 系統 | ||
1.一種根據對社會事件的文字描述來預測社會情感的方法,其特征在于,該方法包括如下步驟:
S1、構建社會情感語料庫,所述社會情感語料庫是指與社會情感相關聯的文字語料庫,該文字語料庫的每個樣本包括一段與社會事件相關的文本和與之相對應的情感標簽序列,所述情感標簽是指社會公眾對所述社會事件的情感反應類別;
S2、對所述社會情感語料庫中的每一個樣本進行面向所述情感標簽排序的文本特征選擇及文本表示以得到數值型特征向量,建立訓練集,所述文本表示是指將非結構化的文本數據表示成計算機能識別與處理的結構化數據,也即將文本數據量化為數值型特征向量的過程;
S3、構建情感標簽序列的概率模型,所述概率模型將所述情感標簽序列映射到概率空間的概率值;
S4、構建情感簽序列損失函數,通過所述的概率模型,在情感標簽序列上構建損失函數,該情感標簽序列損失函數表征排序模型輸出的情感標簽序列與真實情感標簽序列的差異,通過優化該損失函數,得到社會情感預測模型;
S5、將描述社會事件的文本輸入所述社會情感預測模型,得到與該社會事件相對應的情感標簽排序,所述情感標簽排序表示對該社會事件所預測的社會情感。
2.如權利要求1所述的根據對社會事件的文字描述來預測社會情感的方法,其特征在于,將網絡新聞文本作為所述社會情感語料庫的文本來源,將與所述網絡新聞文字相對應的網民情感反應作為社會情感語料庫的情感標簽的來源。
3.如權利要求2所述的根據對社會事件的文字描述來預測社會情感的方法,其特征在于,在步驟S1中,還包括對所述網絡新聞文本進行預處理的步驟,所述預處理步驟用于得到所述網絡新聞文本的有效信息。
4.如權利要求1所述的根據對社會事件的文字描述來預測社會情感的方法,其特征在于,在步驟S2中,所述文本特征選擇的特征評估函數如下:
其中,m為情感標簽數,n為語料中的文檔總數,sij表示樣本j在情感i上的得分,p(t)表示語料中包含詞條t的文檔概率,表示語料中不包含詞條t的文檔概率,nt表示語料中包含詞條t的文檔總數,反之;在特征選擇時,評估函數LR-IG對詞袋子中的每個關鍵詞進行評估打分,獲取每個詞的分數,然后對所有的關鍵詞按照評估分數大小進行排序,選取評分靠前的預定數目的或在設定的閾值之上的詞作為特征項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210272225.3/1.html,轉載請聲明來源鉆瓜專利網。





