[發明專利]一種基于長尾問題的多標簽文本分類方法在審
| 申請號: | 202211519636.8 | 申請日: | 2022-11-30 |
| 公開(公告)號: | CN115757795A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 唐宏;劉杰;甘陳敏;彭金枝;孫銳 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F18/214;G06N3/048;G06N3/047;G06N3/0442;G06N3/0455;G06N3/08;G06N3/096 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 盧勝斌 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 長尾 問題 標簽 文本 分類 方法 | ||
本發明屬于自然語言處理與多標簽文本分類領域,特別涉及一種基于長尾問題的多標簽文本分類方法,包括對頭部標簽和尾部標簽進行文本語義提取,分別獲得頭部標簽文本表示和尾部標簽文本表示并進行采樣,得到頭部標簽原型和尾部標簽原型;利用頭部標簽文本表示訓練得到頭部標簽分類器,通過最小化頭部標簽分類器的損失函數,得到頭部標簽權重;將頭部標簽原型映射到頭部標簽權重上,通過最小化遷移學習獲取轉移權重;根據轉移權重對頭部標簽權重進行轉移,得到尾部標簽分類器;將尾部標簽分類器和頭部標簽分類器進行融合,得到分類模塊;將待分類數據的文本表示輸入分類模塊,得到分類結果;本發明提升多標簽文本分類的準確率和歸一化折損累計增益。
技術領域
本發明屬于自然語言處理與多標簽文本分類領域,特別涉及一種基于長尾問題的多標簽文本分類方法。
背景技術
長尾問題作為文本分類的熱點話題,已經引起了很大地關注,如何解決長尾問題是多標簽文本分類領域的重點研究點,對于一般的單標簽文本分類而言,受影響的程度是比較低的,但是對于多標簽來說,有的標簽之間存在很大的聯系,有的又沒有聯系,對于分類來說更加的復雜,而對于頭部標簽來說是對于少數文檔出現頻率高的標簽,而尾部標簽是多數文檔出現頻率少的標簽,從而導致分類更加偏向于頭部標簽,引起長尾問題的出現,嚴重情況甚至導致分類的錯誤。
多標簽文本分類是自然語言處理中的一個分支,多標簽文本分類方法具體的解決思路主要分為兩大類:傳統機器學習方法和基于深度學習的方法。對于傳統機器學習方法存在很多的弊端,標簽相關性以及長尾問題處理得不盡人意;基于深度學習的方法是現在主流的方法,它是利用各種神經網絡模型來處理多標簽文本分類問題,本文也是用到了Bert和BILSTM當今的主流模型。雖然現在對于多標簽文本分類的研究已經很當多了,但是仍然存在幾個問題:
1、標簽長尾問題,由于長尾問題,導致尾部標簽的泛化能力是相對很弱的,導致在訓練分類器進行分類的時候,更多的分類是傾向于頭部標簽,導致本該是尾部標簽的還是分到了頭標簽,所以解決長尾問題已經迫在眉睫。
2、標簽之間存在相互關聯,所以標簽與標簽之間有所影響,這也是我們需要處理的問題,解決這個問題是提高模型性能的關鍵之一。
發明內容
為解決上述問題,本發明提供了一種基于長尾問題的多標簽文本分類方法,構建包括文本語義提取模塊、權重轉移模塊、融合模塊以及分類模塊的文本分類模型,進行分類的過程包括以下步驟:
S1、文本語義提取模塊通過Bert、BILSTM以及注意力機制對頭部標簽和尾部標簽進行文本語義提取,分別獲得頭部標簽文本表示和尾部標簽文本表示;
S2、對頭部標簽文本表示和尾部標簽文本表示分別進行采樣,得到頭部標簽原型和尾部標簽原型;
S3、利用頭部標簽文本表示對頭部標簽分類器進行訓練,獲取頭部標簽分類器,通過最小化頭部標簽分類器的損失函數,得到頭部標簽權重;
S4、權重轉移模塊將頭部標簽原型映射到頭部標簽權重上,并通過最小化遷移學習獲取轉移權重;
S4、權重轉移模塊根據轉移權重對頭部標簽權重進行轉移,得到尾部標簽分類器;
S5、融合模塊將尾部標簽分類器和頭部標簽分類器進行融合,得到分類模塊;
S6、將待分類數據的文本表示輸入分類模塊,得到分類結果。
進一步的,獲取文本表示的過程包括:
采用Bert模型對文本進行預訓練,得到預訓練文本表示;
通過BILSTM獲取預訓練文本表示的文本上下文依賴關系;
利用注意力機制對文本上下文依賴關系進行強化,得到文本表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211519636.8/2.html,轉載請聲明來源鉆瓜專利網。





