[發(fā)明專利]一種基于卷積神經(jīng)網(wǎng)絡(luò)的中文財(cái)經(jīng)新聞文本分類方法在審
| 申請?zhí)枺?/td> | 201810147792.3 | 申請日: | 2018-02-13 |
| 公開(公告)號: | CN108399230A | 公開(公告)日: | 2018-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 吳佳萍;謝志峰;黃東晉;丁友東 | 申請(專利權(quán))人: | 上海大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海上大專利事務(wù)所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷積神經(jīng)網(wǎng)絡(luò) 財(cái)經(jīng)新聞 詞向量 文本分類 中文 神經(jīng)網(wǎng)絡(luò)模型 文本預(yù)處理 無監(jiān)督學(xué)習(xí) 統(tǒng)計(jì)信息 動態(tài)調(diào)整 分類問題 網(wǎng)絡(luò)模型 新聞分類 有效解決 加模型 通用的 小樣本 有效地 卷積 語料 引入 表現(xiàn) | ||
本發(fā)明公開了一種基于卷積神經(jīng)網(wǎng)絡(luò)的中文財(cái)經(jīng)新聞文本分類方法,主要分為詞向量訓(xùn)練、文本預(yù)處理、神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練、新聞分類四個(gè)部分。使用大規(guī)模財(cái)經(jīng)新聞?wù)Z料,通過無監(jiān)督學(xué)習(xí)的方法,訓(xùn)練獲得一個(gè)廣義通用的財(cái)經(jīng)類詞向量模型,并有效地將詞向量引入到卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練中,通過動態(tài)調(diào)整詞向量的方法増加模型的統(tǒng)計(jì)信息。使用的卷積網(wǎng)絡(luò)模型結(jié)構(gòu)簡單,針對小樣本集也能表現(xiàn)優(yōu)異的性能,不僅有效解決中文財(cái)經(jīng)新聞分類問題,還充分證明了卷積神經(jīng)網(wǎng)絡(luò)在處理文本分類問題中的有效性。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)自然語言處理領(lǐng)域,特別涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的中文財(cái)經(jīng)新聞文本分類方法。
背景技術(shù)
財(cái)經(jīng)新聞的內(nèi)容覆蓋了與經(jīng)濟(jì)相關(guān)的所有領(lǐng)域,包括從生產(chǎn)到消費(fèi),從農(nóng)村到城市,從微觀到宏觀,從經(jīng)濟(jì)工作到社會、政治生活等。簡練的文字涵蓋海量的信息,同時(shí)由于互聯(lián)網(wǎng)的出現(xiàn),其傳播速度得到迅速提高,讀者可以第一時(shí)間了解相關(guān)信息,特別對企業(yè)家與投資者而言,財(cái)經(jīng)新聞是其判斷市場變化的重要依據(jù)。但面對新聞數(shù)據(jù)呈爆炸式增長且雜亂無章序的現(xiàn)象,用戶獲取有用信息的難度同比增加,對海量財(cái)經(jīng)新聞?wù)?fù)性的分類存在迫切需要,然而當(dāng)前對于財(cái)經(jīng)新聞的分類研究卻很少,至今沒有一種有效的分類方法被提出。如何利用當(dāng)前計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對財(cái)經(jīng)新聞的有效分類,是一個(gè)急需解決的問題。
實(shí)現(xiàn)財(cái)經(jīng)新聞分類的基礎(chǔ)是文本分類技術(shù)。應(yīng)用文本分類方法可以有效解決信息紊亂的問題,較大程度地幫助用戶定位有用信息。目前,傳統(tǒng)的文本分類方法及其存在的缺陷有:1)支持向量機(jī)(SVM):對缺失數(shù)據(jù)敏感,且在非線性問題上無通用解決方案;2)決策樹分類:不適用訓(xùn)練大樣本集,在噪聲影響下容易導(dǎo)致過分?jǐn)M合;3)樸素貝葉斯分類:假設(shè)條件在現(xiàn)實(shí)中無法滿足,不能達(dá)到各屬性相互獨(dú)立,影響正確分類。
相比傳統(tǒng)的分類方法,近年來興起的人工神經(jīng)網(wǎng)絡(luò)方法則表現(xiàn)出了良好的智能特性:1)自適應(yīng)性:對周圍環(huán)境具有學(xué)習(xí)適應(yīng)能力;2)容錯(cuò)性:對噪聲和信息缺失的敏感程度低;3)模式識別性:能很好得識別多變量的模式。
文本分類是自然語言處理中常見的任務(wù),根據(jù)學(xué)習(xí)方法可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。目前大部分研究方法都采用有監(jiān)督得學(xué)習(xí)方式,如基于文本特征向量相關(guān)性方法、基于遺傳算法的方法、基于關(guān)聯(lián)的方法、基于EM算法的方法等都是典型的有監(jiān)督學(xué)習(xí)方法。
2003年,Bengio等最早提出用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元語言模型NNLM(Neural NetworkLan-guage Model),實(shí)現(xiàn)將詞映射轉(zhuǎn)換到低維實(shí)數(shù)向量,提出可以通過詞之間的距離來判斷各詞的語義相似度,同時(shí)結(jié)合非線性神經(jīng)網(wǎng)絡(luò)提出了n-gram模型。
Andriy Mnih等人則提出通過層次Log-Bilinear模型來進(jìn)行語言模型訓(xùn)練。
Socher等人使用基于詞向量的遞歸神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對文本的向量表示,該網(wǎng)絡(luò)可以有效用于文本分析。
John Son提出基于詞表達(dá)方式的卷積神經(jīng)網(wǎng)絡(luò)模型,顯示了詞序特征在文本分類中的有效性。
Collobert等結(jié)合多層一維卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了同時(shí)包含處理詞性標(biāo)注、語塊切分、命名實(shí)體識別、語義角色標(biāo)注四個(gè)典型自然語言處理任務(wù)的SENNA系統(tǒng),并取得了當(dāng)時(shí)最好的性能效果。
Mikolov借鑒Log-Bilinear模型的思想,通過添加隱藏層的多次遞歸提高了語言模型性能,在詞預(yù)測的準(zhǔn)確率方面超越了當(dāng)時(shí)最好的基準(zhǔn)系統(tǒng)。
Zhou等提出一種稱為主動深度網(wǎng)絡(luò)(Active deep network,ADN)的半監(jiān)督學(xué)習(xí)算法用于解決情感分類問題。
Blunsom等在2014年提出動態(tài)卷積神經(jīng)網(wǎng)絡(luò)句子語義模型,在StanfordSentiment Treebank的二元分類與多元分類上再次取得一定的進(jìn)步。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學(xué),未經(jīng)上海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810147792.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計(jì)方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法及檢測裝置
- 一種基于情感分析和隱馬爾科夫模型融合的股市預(yù)測方法
- 一種結(jié)合財(cái)經(jīng)新聞的深度學(xué)習(xí)股市預(yù)測方法
- 一種基于互聯(lián)網(wǎng)的新聞發(fā)布管理系統(tǒng)
- 一種實(shí)現(xiàn)財(cái)經(jīng)新聞自動關(guān)聯(lián)到股票的方法
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的中文財(cái)經(jīng)新聞文本分類方法
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的股市預(yù)測方法
- 財(cái)經(jīng)新聞的模型訓(xùn)練方法和生成方法、裝置、設(shè)備及介質(zhì)
- 信息處理方法、裝置和計(jì)算機(jī)設(shè)備
- 基于情感詞典的財(cái)經(jīng)新聞中細(xì)粒度實(shí)體的情感分析方法
- 一種基于BERT和VAR模型的財(cái)經(jīng)新聞情感分析方法





