[發明專利]一種文本數據的信息處理方法、裝置在審
| 申請號: | 201811440004.6 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109284389A | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 付博 | 申請(專利權)人: | 北京國信宏數科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京國貝知識產權代理有限公司 11698 | 代理人: | 柯俊 |
| 地址: | 100079 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本數據 情緒 信息處理 自然語言處理技術 計算機存儲介質 分類模型 負面情緒 固有缺陷 后續程序 機器學習 數據采集 數據基礎 信心指數 | ||
1.一種基于文本數據的信息處理方法,其特征在于,所述方法包括:
獲取文本數據;
基于所述文本數據和已經訓練好的分類模型得到所述文本數據的情緒傾向結果,其中,所述情緒傾向結果包括正面情緒的數量或負面情緒的數量;
根據所述情緒傾向結果得到經濟信心指數。
2.如權利要求1所述的信息處理方法,其特征在于,所述獲取文本數據包括:基于互聯網爬蟲技術獲取互聯網中的所述文本數據。
3.如權利要求1所述的信息處理方法,其特征在于,所述得到所述文本數據的情緒傾向結果包括:對所述文本數據進行特征提取得到所述文本數據的分類特征,其中,分類特征包括觀點觸發詞特征、觀點主題特征、短語句法特征、詞語表示特征、情感詞特征、或情感上下文特征中的至少一個。
4.如權利要求3所述的信息處理方法,其特征在于,所述分類模型的訓練包括:
對已經標注情緒傾向的訓練樣本進行分類特征提取,并將所述分類特征作為輸入,所述訓練樣本的情緒傾向結果作為輸出,訓練得到分類模型。
5.如權利要求4所述的信息處理方法,其特征在于,所述分類模型包括支持向量機模型,或隨機森林模型、或決策樹模型、或樸素貝葉斯模型。
6.如權利要求3-5中任一項所述的信息處理方法,其特征在于,所述進行觀點觸發詞特征提取包括:基于文本樣本,采用TFIDF計算文本樣本中的詞的權重,得到觀點觸發詞的集合;根據所述觀點觸發詞對所述文本數據進行觀點觸發詞特征提取;或者
所述進行觀點主題特征提取包括:基于預定的觀點主題關鍵詞對所述文本數據進行觀點主題特征提取;或者
所述進行短語句法特征提取包括:采用短語句法分析器對所述文本數據進行短語句法特征提?。换蛘?/p>
所述進行詞語表示特征提取包括:基于詞語向量表示學習對所述文本數據進行詞語表示特征提取。
7.如權利要求3-5中任一項所述的信息處理方法,其特征在于,所述進行情感詞特征提取包括:
基于已經標注情感傾向極性得分的文本樣本,提取情感詞作為輸入,極性得分作為輸出,訓練情感詞模型;
根據所述文本數據和所述情感詞模型,得到所述文本數據的情感詞極性得分作為情感詞特征。
8.如權利要求7中所述的信息處理方法,其特征在于,所述進行情感上下文特征提取包括:
基于文本數據中的所述情感詞特征得到所述情感上下文特征;其中,如果所述情感的句子沒有包含轉折詞或否定詞,則所述句子的情感上下文特征為所述情感詞的極性得分;
如果所述情感詞所在的句子中包含否定詞則所述句子的情感上下文特征為將所述情感詞的極性得分取反;
如果所述情感詞所在的句子中包含轉折詞則所述句子的情感上下文特征為包含所述轉折詞的句子中情感詞的極性得分。
9.如權利要求1所述的信息處理方法,根據所述情緒傾向結果得到經濟信心指數包括:根據如下公式計算經濟信心指數:
其中,其中N表示文本數據中分類特征的數量,PosN表示分類特征包含的表達正面情緒的數量,NegN表示分類特征包含的表達負面情緒的數量。
10.一種文本數據的信息處理裝置,其特征在于,所述裝置包括:
數據采集模塊,用于獲取文本數據;
分類模塊,用于基于所述文本數據和已經訓練好的分類模型得到所述文本數據的情緒傾向結果,其中,所述情緒傾向結果包括正面情緒的數量或負面情緒的數量;
計算模塊,用于根據所述情緒傾向結果得到經濟信心指數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國信宏數科技有限責任公司,未經北京國信宏數科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811440004.6/1.html,轉載請聲明來源鉆瓜專利網。





