[發明專利]一種文本數據的信息處理方法、裝置在審
| 申請號: | 201811440004.6 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109284389A | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 付博 | 申請(專利權)人: | 北京國信宏數科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京國貝知識產權代理有限公司 11698 | 代理人: | 柯俊 |
| 地址: | 100079 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本數據 情緒 信息處理 自然語言處理技術 計算機存儲介質 分類模型 負面情緒 固有缺陷 后續程序 機器學習 數據采集 數據基礎 信心指數 | ||
本發明提供一種基于文本數據的信息處理方法、裝置,該方法包括:獲取文本數據;基于所述文本數據和已經訓練好的分類模型得到所述文本數據的情緒傾向結果,其中,所述情緒傾向結果包括正面情緒的數量或負面情緒的數量;根據所述情緒傾向結果得到所述文本數據的經濟信心指數。根據本發明的方法、系統及計算機存儲介質,基于自然語言處理技術和機器學習方法,彌補了傳統方法的數據采集時間長、成本高固有缺陷,為后續程序提供良好的數據基礎。
技術領域
本申請涉及計算機技術領域,特別涉及數據處理的方法及裝置。
背景技術
當前,我國對各種指數的研究主要是由國家統計局采用傳統的調查方法進行匯總計算而成,完成該項工作需要大量的人力、物力、金錢以及時間成本,同時,這些數據的公布往往存在一定時期的滯后。在互聯網時代,信息傳輸速度極快,網絡數據資源呈現爆炸式增長,通過對互聯網文本數據的挖掘及分析可以獲取及時、全面的經濟信息,進而編制出一系列反映經濟形勢發展趨勢的指數,在這些指數中蘊含著網民對當前經濟形勢的總體評價,對經濟前景、收入水平、收入預期以及消費心理狀態的主觀感受,有助于政府和企業及時有效的做出相關決策。
目前基于網絡文本的消費者信心指數,多是利用網絡搜索數據,雖然大量的搜索數據可以表征一定的趨勢性(如流感爆發),但如果能從文本中抽取也主觀性的觀點以及心理感覺受的話,可以更加準確的對經濟信心指數進行研究。
因此,現有技術中存在數據采集時間長、成本高的缺陷。
發明內容
考慮到上述問題而提出了本發明。本發明提供了一種文本數據的信息處理方法、系統及計算機存儲介質,彌補了傳統方法的數據采集時間長、成本高固有缺陷,為后續程序提供良好的數據基礎。
根據本發明一方面,提供了一種文本數據的信息處理方法,所述方法包括:
獲取文本數據;
基于所述文本數據和已經訓練好的分類模型得到所述文本數據的情緒傾向結果,其中,所述情緒傾向結果包括正面情緒的數量或負面情緒的數量;
根據所述情緒傾向結果得到經濟信心指數。
示例性地,所述獲取文本數據包括:基于互聯網爬蟲技術獲取互聯網中的所述文本數據。
示例性地,所述得到所述文本數據的情緒傾向結果包括:對所述文本數據進行特征提取得到所述文本數據的分類特征,其中,分類特征包括觀點觸發詞特征、觀點主題特征、短語句法特征、詞語表示特征、情感詞特征、或情感上下文特征中的至少一個。
示例性地,所述分類模型的訓練包括:
對已經標注情緒傾向的訓練樣本進行分類特征提取,并將所述分類特征作為輸入,所述訓練樣本的情緒傾向結果作為輸出,訓練得到分類模型。
示例性地,所述分類模型包括支持向量機模型,或隨機森林模型、或決策樹模型、或樸素貝葉斯模型。
示例性地,所述進行觀點觸發詞特征提取包括:基于文本樣本,采用TFIDF計算文本樣本中的詞的權重,得到觀點觸發詞的集合;根據所述觀點觸發詞對所述文本數據進行觀點觸發詞特征提取;或者,所述進行觀點主題特征提取包括:基于預定的觀點主題關鍵詞對所述文本數據進行觀點主題特征提取;或者,所述進行短語句法特征提取包括:采用短語句法分析器對所述文本數據進行短語句法特征提取;或者所述進行詞語表示特征提取包括:基于詞語向量表示學習對所述文本數據進行詞語表示特征提取。
示例性地,所述進行情感詞特征提取包括:
基于已經標注情感傾向極性得分的文本樣本,提取情感詞作為輸入,極性得分作為輸出,訓練情感詞模型;
根據所述文本數據和所述情感詞模型,得到所述文本數據的情感詞極性得分作為情感詞特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國信宏數科技有限責任公司,未經北京國信宏數科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811440004.6/2.html,轉載請聲明來源鉆瓜專利網。





