[發(fā)明專利]一種文本分類方法、系統(tǒng)、計算機設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011425848.0 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112529071B | 公開(公告)日: | 2023-10-17 |
| 發(fā)明(設(shè)計)人: | 劉勛;宗建華;夏國清;葉和忠;劉強 | 申請(專利權(quán))人: | 廣州大學華軟軟件學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/241;G06N3/0464;G06N3/042;G06N3/048;G06N3/047;G06N3/08;G06F40/284;G06F40/216 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 郭浩輝;顏希文 |
| 地址: | 510990 廣東省廣州市從*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 方法 系統(tǒng) 計算機 設(shè)備 存儲 介質(zhì) | ||
1.一種文本分類方法,其特征在于,所述方法包括以下步驟:
建立高低階圖卷積神經(jīng)網(wǎng)絡(luò)模型;所述高低階圖卷積神經(jīng)網(wǎng)絡(luò)模型依次包括輸入層、高低階圖卷積層、信息融合層、一階圖卷積層、以及輸出層;
獲取采用所述高低階圖卷積神經(jīng)網(wǎng)絡(luò)模型進行文本分類的語料集;所述語料集包括多個樣本,每個樣本包含文檔和標題;
對所述語料集進行預處理,得到訓練集和測試集;
根據(jù)所述訓練集和測試集分別構(gòu)建訓練集文本圖網(wǎng)絡(luò)和測試集文本圖網(wǎng)絡(luò);
將所述訓練集文本圖網(wǎng)絡(luò)輸入到高低階圖卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)合損失函數(shù)進行訓練,得到文本分類模型;
將所述測試集文本圖網(wǎng)絡(luò)輸入到所述文本分類模型中進行測試,得到分類結(jié)果。
2.如權(quán)利要求1所述的文本分類方法,其特征在于,所述高低階圖卷積神經(jīng)網(wǎng)絡(luò)模型的輸出為Z,則:
其中X是圖的輸入矩陣,w1和w2分別是輸入層到隱藏層之間的參數(shù)矩陣和隱藏層到輸出層之間的參數(shù)矩陣,是圖的含自連接的正則化鄰接矩陣,k是圖卷積的最高階數(shù),ReLU(·)為非線性激活函數(shù),NMPooling(·)為信息融合層,softmax(·)為多分類輸出函數(shù)。
3.如權(quán)利要求2所述的文本分類方法,其特征在于,所述高低階圖卷積層包括基于權(quán)重共享的一階圖卷積到k階圖卷積;所述高低階圖卷積層的階數(shù)k為二階及其以上階數(shù)中的一種、或者任意復數(shù)種階數(shù)的組合。
4.如權(quán)利要求2所述的文本分類方法,其特征在于,所述信息融合層采用最小值取反的信息融合池化,其實現(xiàn)步驟包括:
根據(jù)所述輸入矩陣X、參數(shù)矩陣w1和正則化鄰接矩陣計算不同階圖卷積的最小值矩陣;
對所述最小值矩陣的每個元素值取反,得到池化后的圖特征矩陣。
5.如權(quán)利要求1所述的文本分類方法,其特征在于,所述對所述語料集進行預處理,得到訓練集和測試集的步驟包括:
對所述語料集中各樣本的標題和文檔進行去重、分詞,以及去除停止詞和特殊符號的預處理,得到語料集單詞,并將所述語料集單詞和文檔組成語料文本組;
將所述語料文本組按數(shù)量比例劃分為訓練集和測試集。
6.如權(quán)利要求1所述的文本分類方法,其特征在于,所述根據(jù)所述訓練集和測試集分別構(gòu)建訓練集文本圖網(wǎng)絡(luò)和測試集文本圖網(wǎng)絡(luò)的步驟包括:
根據(jù)所述訓練集和測試集分別建立特征矩陣為對應(yīng)維數(shù)單位矩陣的訓練集文本圖和測試集文本圖;
根據(jù)TF-IDF算法和PMI算法確定所述訓練集文本圖和測試集文本圖的鄰接矩陣。
7.如權(quán)利要求6所述的文本分類方法,其特征在于,所述根據(jù)TF-IDF算法和PMI算法確定所述訓練集文本圖和測試集文本圖的鄰接矩陣的步驟包括:
根據(jù)所述TF-IDF算法計算所述訓練集文本圖的鄰接矩陣中的文檔節(jié)點和單詞節(jié)點連接邊的權(quán)重,并根據(jù)所述PMI算法計算所述訓練集文本圖的鄰接矩陣中的單詞節(jié)點與單詞節(jié)點連接邊的權(quán)重;
以及根據(jù)所述TF-IDF算法計算所述測試集文本圖的鄰接矩陣中的文檔節(jié)點和單詞節(jié)點連接邊的權(quán)重,并根據(jù)所述PMI算法計算所述測試集文本圖的單詞節(jié)點與單詞節(jié)點連接邊的權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州大學華軟軟件學院,未經(jīng)廣州大學華軟軟件學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011425848.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





