[發明專利]基于改進GraphRNN的多標簽文本分類系統及分類方法有效
| 申請號: | 202110853595.5 | 申請日: | 2021-07-28 |
| 公開(公告)號: | CN113297385B | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 劉漢東;鐘學燕;陳雁;王欣 | 申請(專利權)人: | 西南石油大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/126;G06F40/289;G06N3/04 |
| 代理公司: | 四川貓博思知識產權代理有限公司 51334 | 代理人: | 張輝 |
| 地址: | 610500 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 graphrnn 標簽 文本 分類 系統 方法 | ||
本發明公開了一種基于改進GraphRNN的多標簽文本分類系統及分類方法,所述分類系統包括編碼器、由改進GraphRNN構成的解碼器和Graph2Seq模塊構成;采用上述系統對多標簽文本分類方法如下:步驟1:將原始樣本的標簽集轉換為標簽圖;步驟2:文本預處理,包括分詞、詞語向量化、劃分數據集;步驟3:劃分數據集,分為訓練集、驗證集、測試集;步驟4:訓練分類系統,在驗證集上調整超參數前驅節點數,再在測試集上測試;步驟5:將新樣本送入訓練好的分類系統,預測對應的標簽結果。本發明將多標簽分類轉換為圖生成問題,可緩解標簽順序帶來的影響,圖生成分為節點生成和邊生成,可分別建模標簽關聯和標簽關聯程度。
技術領域
本發明屬于信息技術領域,涉及自然語言處理、文本分類及多標簽分類,具體涉及一種基于改進GraphRNN的多標簽文本分類系統及分類方法。
多標簽分類是機器學習領域中一個重要的學習任務,被廣泛應用于文本分類、圖像標注、推薦系統等實際場景。在多標簽分類問題中,樣本可以被分配到多個標簽上。假設樣本空間,表示維的實數空間,標簽空間,表示某個標簽,,當前數據集為,表示樣本總數,表示某樣本輸入信息,表示某樣本對應的標簽。多標簽分類任務就是從數據中學習一個決策函數,使得每個文本被分配到一組標簽上去。當標簽空間較大時,輸出空間會出現指數級增長,而利用標簽關聯可以減小多標簽分類難度。
從利用標簽關聯的角度出發,目前多標簽分類方法主要可分為三種:1、一階方法,典型算法如Binary Relevance、ML-KNN,這類方法簡單有效,但忽略了標簽關聯;2、二階方法,典型算法如Rank-SVM、Calibrated Label Ranking,這類方法只考慮標簽對兩兩之間的聯系,如排序問題中相關標簽和不相關標簽的排列關系;3、高階方法,這類方法能建模多個標簽之間的關聯,但需要預定義順序,存在累計誤差,典型的傳統算法如ClassifierChains、Ensemble Classifier Chains。
在以上三類方法中,目前圍繞高階方法展開的研究居多。由于循環神經網絡在處理序列數據上的表現優異,近年來不少研究利用循環神經網絡建模標簽高階關聯,在序列到序列(Sequence to Sequence,Seq2Seq)模型下將多標簽分類轉換為序列生成問題,但模型易受標簽順序影響。為緩解標簽順序帶來的影響,有研究將多標簽分類視為標簽集合預測,但無法區分標簽關聯程度,而標簽間關聯應有不同程度之分。
總的來說,現有的多標簽分類方法,在建模標簽高階關聯時,要么受標簽順序限制,要么沒有考慮標簽關聯的具體程度。
發明內容
本發明針對多標簽分類中如何利用標簽關聯的問題,提出了一種基于改進GraphRNN的多標簽文本分類系統及分類方法,根據標簽共現關系構建標簽圖數據,將多標簽分類轉換為標簽圖生成問題,可避免預定義標簽順序;利用標簽共現信息,建模標簽關聯程度,可以更細致地建模標簽關聯。
為解決上述技術問題,本發明采用的技術方案如下:
一種基于改進GraphRNN的多標簽文本分類系統,所述分類系統包括編碼器、解碼器和Graph2Seq模塊,輸入信息由編碼器進行編碼,送入解碼器生成標簽圖,再由Graph2Seq模塊將生成的標簽圖轉換為標簽集;
所述解碼器由改進GraphRNN構成,具體是:基于GraphRNN圖生成模型并對其進行改進,改進GraphRNN由節點生成和邊生成組成,其中,所述節點生成添加softmax模塊后生成標簽節點,建模標簽關聯,所述邊生成由二分類改為多分類,建模標簽不同的關聯程度,具體如下:
所述節點生成為:
節點生成以“BOS”作為初始輸入節點,第時刻,輸入包括、、,輸出為節點概率分布,表示預測當前時刻節點為不同標簽的概率,為當前時刻預測節點,為當前時刻以前預測出的所有節點,為單個樣本的文本信息;為前一時刻預測節點的嵌入信息,為“BOS”的嵌入信息,為預測當前時刻節點時通過注意力機制從編碼信息中獲得的上下文信息,為前一時刻的隱狀態;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南石油大學,未經西南石油大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110853595.5/2.html,轉載請聲明來源鉆瓜專利網。





