[發明專利]一種基于圖神經網絡的多元特征融合中文文本分類方法有效
| 申請號: | 202010868076.1 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN112015863B | 公開(公告)日: | 2023-06-13 |
| 發明(設計)人: | 范夢真;嚴一博;程大偉;羅軼鳳;錢衛寧;周傲英 | 申請(專利權)人: | 華東師范大學;上海瞰點科技有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 多元 特征 融合 中文 文本 分類 方法 | ||
1.一種基于圖神經網絡的多元特征融合中文文本分類方法,其特征在于,該方法包括以下具體步驟:
步驟1:文本收集與處理
收集文本,對收集到的文本進行文本預處理,并劃分出訓練集、驗證集和測試集;其中,文本預處理包括分詞及去除停用詞;
步驟2:詞向量模型訓練
使用步驟1中處理后的全部文本訓練word2vec詞向量模型,保存訓練好的word2vec詞向量模型;
步驟3:文本-命名實體異構圖構建
步驟1處理后的文本構成文本集合,使用命名實體識別模型識別文本集合中的文本,得到其中所有的實體,這些實體構成實體集合;將文本和實體視為兩種類型的圖節點,若文本中包含某個實體,則文本節點與實體節點之間建立一條邊,兩種類型的節點及節點之間的邊構成異構圖;
步驟4:構建多元特征融合的神經網絡模型
基于圖卷積神經網絡和GRU序列編碼模型構建多元特征融合的神經網絡模型;
步驟5:訓練與保存
將異構圖每個節點的表征和文本的表征輸入步驟4構建的圖神經網絡模型,得到神經網絡模型的輸出向量,將得到的向量輸入一層的全連接神經網絡作為分類器,輸出為文本屬于各個類別的概率,在訓練集上使用交叉熵損失函數衡量預測概率與文本真實類別的差距,通過Adam優化器反向傳播更新層級神經網絡和分類器中的參數,每次更新參數后計算驗證集上損失函數的值,重復上述過程直到驗證集上損失函數不再下降,保存此時神經網絡模型的參數;
步驟6:文本類型預測
將需分類的文本輸入訓練好的模型中,得到文本屬于各個類別的概率,取概率最大的類別為預測類別。
2.根據權利要求1所述的多元特征融合中文文本分類方法,其特征在于,步驟1所述收集文本為收集來自各大新聞門戶網站和公眾號;所述分詞使用中文分詞方法Jieba分詞;所述停用詞由公開的中文停用詞表以及文本中詞頻-逆文檔頻率Tf-idf值低的詞人工篩選后合并構成;所述劃分默認百分之七十為訓練集、百分之十為驗證集和百分之二十為測試集。
3.根據權利要求1所述的多元特征融合中文文本分類方法,其特征在于,步驟2所述訓練word2vec詞向量模型使用skip-gram方法訓練。
4.根據權利要求1所述的多元特征融合中文文本分類方法,其特征在于,步驟3中所述的命名實體識別模型為Bi-LSTM+CRF;所述實體類型包括文本中的上市公司、非上市公司、人名、地點、時間、金錢和產品。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學;上海瞰點科技有限責任公司,未經華東師范大學;上海瞰點科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010868076.1/1.html,轉載請聲明來源鉆瓜專利網。





