[發(fā)明專利]一種文本數(shù)據(jù)的信息處理方法、裝置在審
| 申請?zhí)枺?/td> | 201811440004.6 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109284389A | 公開(公告)日: | 2019-01-29 |
| 發(fā)明(設(shè)計)人: | 付博 | 申請(專利權(quán))人: | 北京國信宏數(shù)科技有限責(zé)任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京國貝知識產(chǎn)權(quán)代理有限公司 11698 | 代理人: | 柯俊 |
| 地址: | 100079 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本數(shù)據(jù) 情緒 信息處理 自然語言處理技術(shù) 計算機(jī)存儲介質(zhì) 分類模型 負(fù)面情緒 固有缺陷 后續(xù)程序 機(jī)器學(xué)習(xí) 數(shù)據(jù)采集 數(shù)據(jù)基礎(chǔ) 信心指數(shù) | ||
本發(fā)明提供一種基于文本數(shù)據(jù)的信息處理方法、裝置,該方法包括:獲取文本數(shù)據(jù);基于所述文本數(shù)據(jù)和已經(jīng)訓(xùn)練好的分類模型得到所述文本數(shù)據(jù)的情緒傾向結(jié)果,其中,所述情緒傾向結(jié)果包括正面情緒的數(shù)量或負(fù)面情緒的數(shù)量;根據(jù)所述情緒傾向結(jié)果得到所述文本數(shù)據(jù)的經(jīng)濟(jì)信心指數(shù)。根據(jù)本發(fā)明的方法、系統(tǒng)及計算機(jī)存儲介質(zhì),基于自然語言處理技術(shù)和機(jī)器學(xué)習(xí)方法,彌補(bǔ)了傳統(tǒng)方法的數(shù)據(jù)采集時間長、成本高固有缺陷,為后續(xù)程序提供良好的數(shù)據(jù)基礎(chǔ)。
技術(shù)領(lǐng)域
本申請涉及計算機(jī)技術(shù)領(lǐng)域,特別涉及數(shù)據(jù)處理的方法及裝置。
背景技術(shù)
當(dāng)前,我國對各種指數(shù)的研究主要是由國家統(tǒng)計局采用傳統(tǒng)的調(diào)查方法進(jìn)行匯總計算而成,完成該項工作需要大量的人力、物力、金錢以及時間成本,同時,這些數(shù)據(jù)的公布往往存在一定時期的滯后。在互聯(lián)網(wǎng)時代,信息傳輸速度極快,網(wǎng)絡(luò)數(shù)據(jù)資源呈現(xiàn)爆炸式增長,通過對互聯(lián)網(wǎng)文本數(shù)據(jù)的挖掘及分析可以獲取及時、全面的經(jīng)濟(jì)信息,進(jìn)而編制出一系列反映經(jīng)濟(jì)形勢發(fā)展趨勢的指數(shù),在這些指數(shù)中蘊(yùn)含著網(wǎng)民對當(dāng)前經(jīng)濟(jì)形勢的總體評價,對經(jīng)濟(jì)前景、收入水平、收入預(yù)期以及消費心理狀態(tài)的主觀感受,有助于政府和企業(yè)及時有效的做出相關(guān)決策。
目前基于網(wǎng)絡(luò)文本的消費者信心指數(shù),多是利用網(wǎng)絡(luò)搜索數(shù)據(jù),雖然大量的搜索數(shù)據(jù)可以表征一定的趨勢性(如流感爆發(fā)),但如果能從文本中抽取也主觀性的觀點以及心理感覺受的話,可以更加準(zhǔn)確的對經(jīng)濟(jì)信心指數(shù)進(jìn)行研究。
因此,現(xiàn)有技術(shù)中存在數(shù)據(jù)采集時間長、成本高的缺陷。
發(fā)明內(nèi)容
考慮到上述問題而提出了本發(fā)明。本發(fā)明提供了一種文本數(shù)據(jù)的信息處理方法、系統(tǒng)及計算機(jī)存儲介質(zhì),彌補(bǔ)了傳統(tǒng)方法的數(shù)據(jù)采集時間長、成本高固有缺陷,為后續(xù)程序提供良好的數(shù)據(jù)基礎(chǔ)。
根據(jù)本發(fā)明一方面,提供了一種文本數(shù)據(jù)的信息處理方法,所述方法包括:
獲取文本數(shù)據(jù);
基于所述文本數(shù)據(jù)和已經(jīng)訓(xùn)練好的分類模型得到所述文本數(shù)據(jù)的情緒傾向結(jié)果,其中,所述情緒傾向結(jié)果包括正面情緒的數(shù)量或負(fù)面情緒的數(shù)量;
根據(jù)所述情緒傾向結(jié)果得到經(jīng)濟(jì)信心指數(shù)。
示例性地,所述獲取文本數(shù)據(jù)包括:基于互聯(lián)網(wǎng)爬蟲技術(shù)獲取互聯(lián)網(wǎng)中的所述文本數(shù)據(jù)。
示例性地,所述得到所述文本數(shù)據(jù)的情緒傾向結(jié)果包括:對所述文本數(shù)據(jù)進(jìn)行特征提取得到所述文本數(shù)據(jù)的分類特征,其中,分類特征包括觀點觸發(fā)詞特征、觀點主題特征、短語句法特征、詞語表示特征、情感詞特征、或情感上下文特征中的至少一個。
示例性地,所述分類模型的訓(xùn)練包括:
對已經(jīng)標(biāo)注情緒傾向的訓(xùn)練樣本進(jìn)行分類特征提取,并將所述分類特征作為輸入,所述訓(xùn)練樣本的情緒傾向結(jié)果作為輸出,訓(xùn)練得到分類模型。
示例性地,所述分類模型包括支持向量機(jī)模型,或隨機(jī)森林模型、或決策樹模型、或樸素貝葉斯模型。
示例性地,所述進(jìn)行觀點觸發(fā)詞特征提取包括:基于文本樣本,采用TFIDF計算文本樣本中的詞的權(quán)重,得到觀點觸發(fā)詞的集合;根據(jù)所述觀點觸發(fā)詞對所述文本數(shù)據(jù)進(jìn)行觀點觸發(fā)詞特征提取;或者,所述進(jìn)行觀點主題特征提取包括:基于預(yù)定的觀點主題關(guān)鍵詞對所述文本數(shù)據(jù)進(jìn)行觀點主題特征提取;或者,所述進(jìn)行短語句法特征提取包括:采用短語句法分析器對所述文本數(shù)據(jù)進(jìn)行短語句法特征提取;或者所述進(jìn)行詞語表示特征提取包括:基于詞語向量表示學(xué)習(xí)對所述文本數(shù)據(jù)進(jìn)行詞語表示特征提取。
示例性地,所述進(jìn)行情感詞特征提取包括:
基于已經(jīng)標(biāo)注情感傾向極性得分的文本樣本,提取情感詞作為輸入,極性得分作為輸出,訓(xùn)練情感詞模型;
根據(jù)所述文本數(shù)據(jù)和所述情感詞模型,得到所述文本數(shù)據(jù)的情感詞極性得分作為情感詞特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國信宏數(shù)科技有限責(zé)任公司,未經(jīng)北京國信宏數(shù)科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811440004.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種韻律預(yù)測方法及系統(tǒng)
- 一種基于KNN技術(shù)的語料庫文本分類方法
- 文本數(shù)據(jù)標(biāo)注方法及裝置、存儲介質(zhì)、電子設(shè)備
- 數(shù)據(jù)采集方法、裝置、設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 文本的處理、文本分類模型的訓(xùn)練方法及裝置
- 文本加密方法及裝置、終端設(shè)備、存儲介質(zhì)
- 文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 富文本數(shù)據(jù)處理方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 文本分類模型構(gòu)建、文本分類方法及裝置
- 文本匹配方法、裝置、設(shè)備及存儲介質(zhì)





