[發明專利]一種基于卷積神經網絡的中文財經新聞文本分類方法在審
| 申請號: | 201810147792.3 | 申請日: | 2018-02-13 |
| 公開(公告)號: | CN108399230A | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 吳佳萍;謝志峰;黃東晉;丁友東 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 財經新聞 詞向量 文本分類 中文 神經網絡模型 文本預處理 無監督學習 統計信息 動態調整 分類問題 網絡模型 新聞分類 有效解決 加模型 通用的 小樣本 有效地 卷積 語料 引入 表現 | ||
1.一種基于卷積神經網絡的中文財經新聞文本分類方法,實現對財經新聞正負性的分類;其特征在于,具體操作步驟如下:
1)詞向量訓練:將分好詞的語料文本使用神經網絡來訓練,在訓練過程中生成一組向量,將每個詞映射到一個n維詞向量;
2)文本預處理:利用訓練好的詞向量模型將待訓練樣本轉化為以詞向量為元素的序列表示,得到一個2維矩陣,用于后續神經網絡的訓練;
3)CNN模型訓練:將訓練集通過多塊卷積神經網絡進行有監督的學習訓練;
4)新聞分類:通過使用softmax方式完成對句子的分類。
2.根據權利要求1所述的基于卷積神經網絡的中文財經新聞文本分類方法,其特征在于,所述步驟1)中,使用Google公司開源的word2vec工具訓練一個財經類詞向量模型,對數據的處理包括:去除非法字符、停用詞處理、分詞處理、編碼處理四部分;中文文本與英文文本主要不同之處是不存在天然分隔符,因此需要進行分詞處理,同時,中文文本都存在半角、全角兩種字符,需要對文本進行編碼規范;訓練所得的財經類詞向量用于完成財經類NLP中詞性標注、命名實體識別、短語識別、語義角色標注的任務。
3.根據權利要求1所述的基于卷積神經網絡的中文財經新聞文本分類方法,其特征在于,所述步驟2)中,文本預處理時將財經新聞的數據集,標注為正負兩類,對經濟市場產生積極正面影響的標注為正,對經濟市場產生滯后影響或報道負面的標注為負,并利用JIEBA分詞工具對實驗數據集進行分詞、去除非法字符、停用詞處理。
4.根據權利要求1所述的基于卷積神經網絡的中文財經新聞文本分類方法,其特征在于,所述步驟3)中,使用的卷積神經網絡是前饋神經網絡的一種,由卷積層和池化層疊加組合而成;卷積層作為特征提取層,通過濾波器提取局部特征,經過卷積核函數運算產生特征圖,輸出到池化層,池化層屬于特征映射層,對卷積層產生的特征圖進行降采樣,輸出局部最優特征;具體包括:
(1)詞向量層:將詞序列中的元素轉化為詞向量,令xi∈Rk為第i個詞對應的k維詞向量,長度為n的句子表示為:
其中為級聯運算符,則xi:i+h-1表示由第i到第i+h-1個詞組成的局部特征矩陣;
(2)卷積層:對不同大小的濾波器建立不同的卷積層,若濾波器大小為h*k,其中h為卷積核窗口中的詞數量,則對輸入的特征矩陣進行卷積操作后,生成特征ci為:
ci=f(w·xi:i+h-1+b) (2)
其中b∈R為偏差項,w∈Rh*k為卷積核的權重矩陣,f是卷積核函數;該濾波器應用于句子{x1:h,x2:h+1,...,xn-h+1:n}得到特征圖C為:
C=[c1,c2,c3,c4,...,cn-h+1] (3)
其中c∈Rn-h+1;
(3)池化層:池化層采用max-over-time pooling方法進行特征采樣,對卷積層的輸出特征進一步抽象,保留最重要的特征
(4)全連接層:全連接層由池化層輸出的多個特征向量構成,若有大小不同的濾波器p種,每種濾波的數量為q,則全連接層的特征向量為V為:
在模型訓練階段,采用Adadelta Update Rule進行隨機梯度下降更新模型。
5.根據權利要求1所述的基于卷積神經網絡的中文財經新聞文本分類方法,其特征在于,所述步驟4)中,輸出層使用全連接的softmax層完成分類任務,通過動態調整詞向量増加神經網絡句子模型的統計語義信息,有效提升模型的分類能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810147792.3/1.html,轉載請聲明來源鉆瓜專利網。





