[發明專利]一種基于網絡特征融合的文本分類方法有效
| 申請號: | 202110266934.X | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN112836056B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 覃曉;廖兆琪;元昌安;喬少杰 | 申請(專利權)人: | 南寧師范大學;成都信息工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/2415;G06F18/25;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 530001 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡 特征 融合 文本 分類 方法 | ||
本發明公開了一種基于網絡特征融合的文本分類方法,針對傳統卷積神經網絡無法關注文本上下文含義以及傳統循環神經網絡存在的短時記憶和梯度消失問題,提出了基于Res2Net和BiLSTM網絡融合的模型,能夠有效地解決上述網絡存在的問題,更好地對文本進行分類。本發明利用多尺度殘差網絡Res2Net對文本的局部特征進行提取,同時結合雙向長短時記憶網絡BiLSTM對文本上下文特征進行提取,同時在BiLSTM網絡層后加上傳統機器學習方法——條件隨機場CRF來預測標簽與標簽之間的關系,達到文本正確分類的效果。本發明在不過多增加網絡參數的情況下,通過融合能夠有效地提升文本分類的準確率。
技術領域
本發明屬于深度學習和自然語言處理技術領域,具體涉及一種基于網絡特征融合的文本分類方法的設計。
背景技術
隨著互聯網在現今社會上的大規模使用,網絡上的信息資源正以指數級速度增長,在各種形式的信息中,非結構化的文本信息是相當重要的信息資源之一。在各類海量的文本信息中,如何獲取最有效的信息資源是亟待解決的問題,而文本分類能夠更好地幫助人們利用高效簡潔的算法或模型管理分類好龐雜的文本信息,從中快速準確地獲取所需信息。然而傳統的機器學習文本分類算法需要進行大量的人工設計特征等預處理操作,提升了復雜度。基于此,利用深度學習模型提取文本特征,能夠顯著地提升文本分類速度并且不需要進行大量的人工預處理,取得比傳統文本分類更好的分類效果。
在眾多深度學習網絡模型中,傳統的卷積神經網絡具有處理高維及非線性映射關系問題的能力,可以將預處理過的詞向量作為輸入,利用卷積神經網絡實現句子級別的分類。但是傳統的卷積神經網絡更多地關注于輸入向量的局部特征,忽略了詞的上下文含義,從而對文本分類的準確率有所影響。從關注上下文的層面來看,可以通過使用循環神經網絡來解決問題。傳統的循環神經網絡對于當前的輸出會考慮其前面的輸出,針對時間序列問題形成類似記憶的功能,具體表現在循環神經網絡會將上一時刻的網絡狀態信息作用于下一個時刻的網絡狀態。然而傳統的循環神經網絡雖然通過記憶注意到了文本的上下文關系,但是由于其每個當前的輸出層只關注前一時刻的網絡狀態并且在求解時涉及時間序列上大量的求導運算,從而導致了無法記憶長時間序列上的信息以及梯度消失等問題。
發明內容
本發明的目的是為了解決傳統卷積神經網絡無法關注文本上下文含義以及傳統循環神經網絡存在的短時記憶和梯度消失的問題,提出了一種基于網絡特征融合的文本分類方法,采用基于Res2Net(多尺度殘差網絡)和BiLSTM(雙向長短時記憶網絡)融合的模型,能夠有效地解決上述網絡存在的問題,更好地對文本進行分類。
本發明的技術方案為:一種基于網絡特征融合的文本分類方法,包括以下步驟:
S1、對待分類文本進行預處理,并通過詞向量表示方法將預處理后的文本數據集處理為詞向量集。
S2、將詞向量集拼接為矩陣,并將矩陣輸入至Res2Net網絡中進行訓練,輸出得到文本數據集的局部特征。
S3、將詞向量集輸入至BiLSTM網絡中進行訓練,輸出得到文本數據集的上下文特征。
S4、采用CRF條件隨機場打分機制對文本數據集的上下文特征進行打分,選取得分最高的標簽序列集作為文本數據集的最佳上下文特征序列集合。
S5、將文本數據集的局部特征和最佳上下文特征進行拼接融合,得到融合特征。
S6、將融合特征輸入至softmax分類器中進行分類,得到文本分類結果。
進一步地,步驟S1中對待分類文本進行預處理的方法具體為:去除無用的符號、保留文本數據集只含有中文以及去除停用詞。
進一步地,步驟S2中的Res2Net網絡包括依次連接的第一1×1卷積層、3×3卷積層和第二1×1卷積層,每層卷積層均包括relu激活函數,且第二1×1卷積層的relu激活函數之前用殘差塊進行連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南寧師范大學;成都信息工程大學,未經南寧師范大學;成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266934.X/2.html,轉載請聲明來源鉆瓜專利網。





