[發明專利]一種文本分類方法、系統、計算機設備和存儲介質有效
| 申請號: | 202011425848.0 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112529071B | 公開(公告)日: | 2023-10-17 |
| 發明(設計)人: | 劉勛;宗建華;夏國清;葉和忠;劉強 | 申請(專利權)人: | 廣州大學華軟軟件學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/241;G06N3/0464;G06N3/042;G06N3/048;G06N3/047;G06N3/08;G06F40/284;G06F40/216 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郭浩輝;顏希文 |
| 地址: | 510990 廣東省廣州市從*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 系統 計算機 設備 存儲 介質 | ||
本發明提供了一種文本分類方法、系統、計算機設備和存儲介質,所述方法包括建立一種包括同時捕捉節點多階鄰域信息的高低階圖卷積層、混合不同鄰域的一階到高階特征的信息融合層、一階圖卷積層及softmax分類輸出層的新的高低階圖卷積神經網絡模型,輸入訓練集文本圖網絡訓練得到文本分類模型后,將測試集文本圖網絡輸入分類模型得到分類結果。本發明實施例在文本分類時,保證了文本分類效率和分類效果的同時,還通過同時捕捉節點多階鄰域信息的方法解決了現有圖卷積應用于文本分類時的計算復雜、參數量大、過平滑和限制感受野等問題,進一步提高文本分類模型的表達能力、模型的穩定性,及文本分類任務的精度。
技術領域
本發明涉及文本分類技術領域,特別是涉及一種基于高低階圖卷積網絡的文本分類方法、系統、計算機設備和存儲介質。
背景技術
隨著互聯網技術的迅猛發展,各類社交平臺、技術交流平臺和購物平臺等都得到了快速發展,海量的文本數據信息也就不斷產生,并因為其存在著超高價值的數據信息而成為大數據挖掘研究所熱衷對象,文本分類在信息處理中地位也就越來越重要。研究者們都希望采用有效的文本分類方法對文本數據中的有用信息進行高效的管理、提取、分析為企業或社會發展提供有力的支撐。
目前,文本分類的技術已從早期的依賴語言學專家的先驗知識的人工分類發展到深度機器學習,如以卷積神經網絡(CNN)和循環神經網絡(RNN)為代表的深度學習模型被廣泛應用于文本分類任務,但這些模型可能會忽略在語料庫中的全局單詞共現信息,而這些信息攜帶中非連續的和長距離的語義信息對文件分類結果有著重要的影響。雖然現有的圖卷積神經網絡能處理任何結構的數據和捕捉全局單詞共現信息,可以有效學習具有豐富關系的文本圖網絡以及在圖嵌入時保護圖的全局結構信息,但是現有的圖卷積神經網絡一般只有兩層,這種淺層機制限制了感受野的規模和模型的表達能力,而多層(>2層)的網絡又會使不同類的文本節點值趨于一個固定值進而帶來過平滑問題。那么如何在延續現有圖卷積網絡進行文本分類優勢的基礎上,解決圖卷積網絡應用時的出現過平滑問題的同時,又能夠增加分類模型的感受野,從而提高模型的表達能力和文本分類任務的精度是有重要意義的。
發明內容
本發明的目的是為了解決目前圖卷積網絡應用于文本分類時出現的過平滑和限制模型感受野的問題,進而提高文本分類模型的表達能力和文本分類任務的精度。
為了實現上述目的,有必要針對上述技術問題,提供了一種文本分類方法、系統、計算機設備和存儲介質。
第一方面,本發明實施例提供了一種文本分類方法,所述方法包括以下步驟:
建立高低階圖卷積神經網絡模型;所述高低階圖卷積神經網絡模型依次包括輸入層、高低階圖卷積層、信息融合層、一階圖卷積層、以及輸出層;
獲取采用所述高低階圖卷積神經網絡模型進行文本分類的語料集;所述語料集包括多個樣本,每個樣本包含文檔和標題;
對所述語料集進行預處理,得到訓練集和測試集;
根據所述訓練集和測試集分別構建訓練集文本圖網絡和測試集文本圖網絡;
將所述訓練集文本圖網絡輸入到高低階圖卷積神經網絡模型,結合損失函數進行訓練,得到文本分類模型;
將所述測試集文本圖網絡輸入到所述文本分類模型中進行測試,得到分類結果。
進一步地,所述高低階圖卷積神經網絡模型的輸出為Z,則:
其中X是圖的輸入矩陣,w1和w2分別是輸入層到隱藏層之間的參數矩陣和隱藏層到輸出層之間的參數矩陣,是圖的含自連接的正則化鄰接矩陣,k是圖卷積的最高階數,ReLU(·)為激活函數,NMPooling(·)為信息融合層,softmax(·)為多分類輸出函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學華軟軟件學院,未經廣州大學華軟軟件學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011425848.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種碰碰香內生貝萊斯芽孢桿菌及其應用
- 下一篇:顯示裝置





