[發明專利]一種基于圖神經網絡的多元特征融合中文文本分類方法有效
| 申請號: | 202010868076.1 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN112015863B | 公開(公告)日: | 2023-06-13 |
| 發明(設計)人: | 范夢真;嚴一博;程大偉;羅軼鳳;錢衛寧;周傲英 | 申請(專利權)人: | 華東師范大學;上海瞰點科技有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 多元 特征 融合 中文 文本 分類 方法 | ||
本發明公開了一種基于圖神經網絡的多元特征融合中文文本分類方法,屬于自然語言處理領域。其特點是融合全局圖卷積特征和局部序列特征進行文本分類,通過構建文本與命名實體的異構圖并利用異構圖進行全局圖卷積特征提取,基于GRU的序列編碼器進行局部序列特征提取,最后融合兩部分特征輸入分類器,特別地,在異構圖特征提取階段和特征融合階段使用attention機制來提高重要信息的權重。本發明在某領域的文本分類任務上,相比于現有的分類模型,本發明提出的模型的中文文本分類準確率明顯提高,能更好地應用于對分類精度要求高的某領域文本分類任務上。
技術領域
本發明涉及自然語言處理領域,尤其涉及基于圖神經網絡的多元特征融合中文文本分類方法。
背景技術
互聯網時代文本信息大量產生,例如每天的行業新聞中蘊含大量有效信息,獲取并為這些高效準確地為文本打上標簽,是自然語言處理復雜任務的基礎。類別化后的新聞也有利于研究員針對性地分析和預測行業行情變化。文本分類是自然語言處理中的一項基礎任務,是指根據預先定義好的類別體系將文本打上相應一個或多個標簽的過程。傳統的機器學習文本分類方法,通常包括兩個部分:特征表示和分類模型。傳統文本特征表示方式主要有Bow(詞袋)、Tf-idf(詞頻-逆文檔頻率)等,在將文檔向量化后,使用諸如邏輯回歸、SVM、樸素貝葉斯、決策樹等方法分類。傳統的語言表示模型特征稀疏且無法表征相似度。隨著深度學習技術的發展,文本表示模型可以使用word2vec、glove等分布式表示的語言模型,并使用神經網絡進行信息提取和分類。近年來,圖卷積神經網絡的提出和在文本分類上的使用,提升了文本分類的效果,能夠做到半監督的文本分類,減輕人工標注數據的壓力?,F有文本分類方法針對文本分類仍然有以下不足。
1)序列模型需要大量的標注數據
現有的文本分類模型大部分基于類別較少,粒度較粗的場景,一般是幾類到幾十類,使用循環神經網絡(RNN)和長短期記憶神經網絡(LSTM)進行特征提取。這類序列模型參數量較大,需要大量的標注數據來訓練,而實際的應用中,大量的標注往往耗費巨大的標注成本,且質量難以監控。
2)沒有結合具體領域的知識進行分類
文本中出現的上市公司、非上市公司、人名、地點、時間、金錢和產品等命名實體對文本分類有重要的作用,有相同命名實體的文本在類別上往往有相似性。尤其在細粒度的文本分類中,區分表述相似實際意義不同的命名實體對分類準確率十分重要。例如,“近年來某地果農收益是往年十余倍,得益于在某互聯網平臺的曝光”這類新聞屬于農業而與互聯網行業的相關性不大。所以,識別出文本中的命名實體能夠避免歧義,提高文本分類方法的準確率。
綜上所述,對于領域內實體信息敏感的細粒度分類技術尚未出現。
發明內容
本發明的目的是針對現有技術的不足而提供的一種基于圖神經網絡的多元特征融合中文文本分類方法,該方法基于圖卷積神經網絡,構建文本-命名實體的異構圖,通過異構圖上的圖卷積獲得全局信息,并結合文本分類領域常用的文本編碼方式GRU,對文本信息進行編碼,提升文本表征的信息量,得到一個融合了全局信息和局部語義信息的表征用于文本分類。
實現本發明目的的具體技術方案是:
一種基于圖神經網絡的多元特征融合中文文本分類方法,該方法包括以下具體步驟:步驟1:文本收集與處理
收集文本,對收集到的文本進行文本預處理,并劃分出訓練集、驗證集和測試集;其中,文本預處理包括分詞及去除停用詞;
步驟2:詞向量模型訓練
使用步驟1中處理后的全部文本訓練word2vec詞向量模型,保存訓練好的word2vec詞向量模型;
步驟3:文本-命名實體異構圖構建
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學;上海瞰點科技有限責任公司,未經華東師范大學;上海瞰點科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010868076.1/2.html,轉載請聲明來源鉆瓜專利網。





