[發明專利]一種基于類別嵌入的層次化文本分類計算方法有效
| 申請號: | 201910675336.0 | 申請日: | 2019-07-25 |
| 公開(公告)號: | CN110597983B | 公開(公告)日: | 2023-09-15 |
| 發明(設計)人: | 馬應龍;張鵬 | 申請(專利權)人: | 華北電力大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 史雙元 |
| 地址: | 102206 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 類別 嵌入 層次 文本 分類 計算方法 | ||
本發明屬于計算機文本分類技術領域,尤其涉及一種基于類別嵌入的層次化文本分類計算方法,包括:步驟1:采用圖嵌入算法SDNE對文本類別層次樹中每個節點進行編碼得到類別嵌入向量;步驟2:采用對前向GRU與后向GRU的最后一個隱藏狀態進行拼接的方式來對文本進行編碼,得到文本向量;步驟3:將文本向量表示與類別嵌入向量進行拼接,得到新的文本表示;步驟4:采用多層感知器和SoftMax層基于文本表示對文本進行分類,輸出分類結果。實驗證明本發明大大的降低了子模型的數量,同時提高分類準確率。
技術領域
本發明屬于計算機文本分類技術領域,尤其涉及一種基于類別嵌入的層次化文本分類計算方法。
背景技術
在信息時代的今天,互聯網每天會新增海量的文本數據,如何高效的對這些文本進行自動分類,一直是人們的研究熱點。文本分類技術對很多應用都有重要意義,如文檔搜索,文檔管理和信息檢索。現存的文本分類算法主要采用有監督的機器學習算法,如決策樹,樸素貝葉斯,支持向量機等,并且使用詞袋模型或TD-IDF模型進行文本表示。最近,許多基于深度學習的文本分類算法被提出,相比其他算法,基于深度學習的算法在很多文本分類任務上取得了更高的準確率。
但是,隨著文本數據的爆炸式增長,文本的類別數量也在迅速增加,這意味著在對文本進行分類時,要考慮更多可能的結果,使得文本分類任務更具有挑戰性。一種解決這個問題的有效方法是在分類時引入類別的層次信息,即層次化分類。平面文本分類算法不考慮文本類別之間的關系,在處理文檔時認為類別是互相獨立的,實際上一個類別可能是另一個類別的子類,即一個文檔如果屬于類別ci,那么其必然屬于ci的父類別,這種類別之間的層次結構是重要的信息。
在層次化分類問題中,類別之間并不是毫無關聯的,而是具有一個層次化的結構,通常是樹或有向無環圖,其中子類別是父類別的子節點。層次化分類算法為樣本在類別的層次結構中尋找一條路徑,該路徑上的各類別即是分類結果,與之相對的是平面算法忽視類別之間的結構信息,其常見的做法是直接在那些葉子節點代表的類別中選擇一個作為分類結果。
發明內容
針對上述技術問題,本發明提出了一種基于類別嵌入的層次化文本分類計算方法,包括:
步驟1:采用圖嵌入算法SDNE對文本類別層次樹中每個節點進行編碼得到類別嵌入向量;
步驟2:采用對前向GRU與后向GRU的最后一個隱藏狀態進行拼接的方式來對文本進行編碼,得到文本向量;
步驟3:將文本向量表示與類別嵌入向量進行拼接,得到新的文本表示;
步驟4:采用多層感知器和SoftMax層基于文本表示對文本進行分類,輸出分類結果。
所述步驟1包括:將每個節點編碼為一個低維稠密向量,采用深度自編碼器,并改造損失函數,通過減小一條邊上兩個節點的向量表示的差異來保存圖的局部結構特征。
所述類別嵌入向量保存了類別在層次體系中的結構信息,這些結構信息能反映類別在層次體系中的位置信息以及類別之間的關系。
所述步驟2包括:將文本表示與上一層的分類結果的類別嵌入一起用于本層的分類。
所述深度自編碼器首先通過多次非線性變換將輸入數據x編碼到一個較低維度的表示空間,得到數據的低維度表示y,然后再次通過多次非線性變換進行解碼,試圖還原出輸入數據,記解碼得到的結果是通過盡可能的減少x和的差異來保證低維度的y中保存了足夠多的原始數據信息。
所述GRU中使用門機制,包括更新門和重置門,更新門用于控制前一時刻的狀態信息被保留到當前狀態中的程度,更新門的值越大說明前一時刻的狀態信息保留越多;重置門控制前一狀態有多少信息被寫入到當前的候選狀態上,重置門越小,前一狀態的信息被寫入的越少。
本發明的有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華北電力大學,未經華北電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910675336.0/2.html,轉載請聲明來源鉆瓜專利網。





