[發明專利]一種基于特征增強的非平衡Bi-LSTM的中文文本分類方法有效
| 申請號: | 202011169632.2 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112199503B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 宦海;嚴嘉宇;陳逸飛;李鵬程;朱蓉蓉;劉源 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 增強 平衡 bi lstm 中文 文本 分類 方法 | ||
本發明公開了一種基于特征增強的非平衡Bi?LSTM的中文文本分類方法,首先,預先獲取若干條中文文本;使用BERT預訓練模型將獲取的文本矢量化處理;其次,利用非平衡Bi?LSTM網絡提取文本的深層特征;然后,利用多層注意力機制從詞、句兩個層級對深層特征信息加以權重;最后,使用Softmax函數對文本進行分類。本發明簡化了步驟,將預處理過程寫入系統中,不需要人工對文本做初步處理;與傳統的Bi?LSTM網絡相比,提高了對雙向文本特征的獲取能力,相比于現有技術能夠更好地提高分類精度。
技術領域
本發明屬于自然語言處理技術領域,尤其涉及一種基于特征增強的非平衡Bi-LSTM的中文文本分類方法。
背景技術
隨著網絡技術的快速發展,海量的信息資源以文本的形式存在。如何對這些文本進行有效的分類,從海量的文本中快速、準確、全面的挖掘有效信息,已經成為了自然語言處理研究領域的熱點之一。文本分類是指按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別。文本分類技術在日常生活中具有廣泛的應用,例如,對垃圾短信和郵件的過濾,對新聞的分組查閱等等。
近些年來,文本分類研究多注重分類模型的構建和優化。傳統機器學習模型,如支持向量機、樸素貝葉斯、最大熵模型等,以及深度學習方法,如卷積神經網絡(Convolutional?Neural?Networks,CNN)、長短時記憶網絡(Long?Short?Term?MemoryNetworks,LSTM)等都被廣泛研究和運用。隨著深度學習在計算機視覺和語音識別中取得的巨大成功,越來越多的研究嘗試將深度學習應用到中文文本分類中。與傳統的文本分類方法不同的是,深度學習方法通過深度神經網絡模型來學習文本的詞特征,進而構建文本特征以實現文本分類。基于深度神經網絡模型的方法在中文文本分類任務中取得了比傳統的機器學習模型更好的分類效果。
深度神經網絡中的注意力機制模仿了生物觀察行為的內部過程,即一種將內部經驗和外部感覺對齊,從而增加部分區域的觀察精細度的機制。注意力機制可以快速提取稀疏數據的重要特征,因而被廣泛用于自然語言處理任務,特別是機器翻譯。而自注意力機制是注意力機制的改進,其減少了對外部信息的依賴,更擅長捕捉數據或特征的內部相關性。
在此之前很多基于深度學習的模型都是使用更高層面的單元對文本或者語言進行建模,比如單詞(word2vec),短語(phrases),句子(sentence)層面,或者對語義和語法結構進行分析。這些單詞,語句,句子的知識往往是高維的,很難應用于神經網絡中。
當前的文本分類方法認為文本中每一個特征對于分類的重要性相同,簡單的用文本中所有的特征來表示文本特征,導致分類過程中存在較多的噪音特征。
現有的文本分類中,有的以詞作為最小單元對語言進行建模,由于數據量大,文本長度長,導致單詞層面的維度較高,神經網絡的訓練慢,付出的代價較高;有的易導致提取的文本特征單一,也難以涵蓋文本所有的語義信息,并且沒有重點關注對分類有明顯貢獻的特征,導致出現了分類過程中存在較多的冗余特征的問題。
發明內容
發明目的:本發明的目的提供一種基于特征增強的非平衡Bi-LSTM的中文文本分類方法,不需要人工對文本做初步處理,且更好地提高分類精度。
技術方案:本發明所述的一種基于特征增強的非平衡Bi-LSTM的中文文本分類方法,具體包括以下步驟:
(1)預先獲取若干條中文文本;
(2)使用BERT預訓練模型將獲取的文本矢量化處理;
(3)利用非平衡Bi-LSTM網絡提取文本的深層特征;
(4)利用多層注意力機制從詞、句兩個層級對深層特征信息加以權重;
(5)使用Softmax函數對文本進行分類。
進一步地,所述步驟(2)的實現過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011169632.2/2.html,轉載請聲明來源鉆瓜專利網。





