[發明專利]一種融合遷移學習與主題模型的文本分類方法及系統在審
| 申請號: | 202010032236.9 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111209402A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 唐煥玲;鄭涵;竇全勝;宋英杰;于立萍;魯明羽 | 申請(專利權)人: | 山東工商學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06K9/62;G06N20/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 264005 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 遷移 學習 主題 模型 文本 分類 方法 系統 | ||
本發明公開了一種融合遷移學習與主題模型的文本分類方法及系統,包括:建立共享主題知識的遷移主題模型Tr?SLDA;模型訓練過程中在源域與目標域數據各自類別標簽的約束下,將其采樣到同一主題空間中,有效的緩解由于目標域與源域數據不滿足同分布而導致的“負遷移”現象;在訓練模型Tr?SLDA完成后,測試文檔的潛在主題空間是目標領域的文檔集Dt和訓練文檔集Ds共享的主題空間T,對測試文檔的每個詞的隱含主題進行采樣;將待測文本輸入到訓練完成的Tr?SLDA模型,推斷出待測文本的主題,進而預測文本類別。可有效的緩解由于目標域與源域數據不滿足同分布而導致的“負遷移”現象。進而提高模型在目標領域僅有較少標注數據的實際應用場景下的分類性能。
技術領域
本發明屬于文本數據技術領域,尤其涉及一種融合遷移學習與主題模型的文本分類方法及系統。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在先技術。
文本分類研究的核心內容主要包括分類算法和文本表示兩個部分,文本表示是文本分類問題的研究重點與難點,目前最廣泛的文本表示方法是詞袋法,和向量空間模型(Vector Space Model,VSM)。其假設每個詞均為獨立無序特征,忽略了詞序和句法信息,這會帶來“維數災難”、“稀疏性”、“語義丟失”等諸多問題。
主題模型(topic model)是可用于解決“維度災難”、“稀疏性”的一種方法,并且從全文角度抽取詞的語義信息。Blei等人提出的LDA(Latent Dirichlet Allocation)主題模型,用詞的概率分布來表示主題,通過隱含主題來建立語義相近詞之間的關聯,將文本從高維的詞表示變換到低維的主題表示。LDA主題模型用于文本分類任務時,將文本表示從高維的詞空間變換到低維的主題空間,然后采用KNN、Naive Bayesian、SVM等算法直接分類,其效果并不好。原因在于LDA主題模型是無監督學習,不考慮文本的類別,并沒有利用訓練文本已標注的類別這一重要信息。
SLDA(Supervised LDA,SLDA)在LDA的基礎上引入了用以表示主題-類別的新參數,提出新的采樣方法,建立主題與類別間的精準映射,進而提出SLDA-TC分類方法提高了主題模型在文本分類任務上的分類性能。
發明人在研究中發現,在傳統的有監督文本分類方法中,為了得到較好的分類器,都有兩個基本假設:(1)訓練樣本與測試樣本獨立同分布;(2)擁有足夠可利用的已標注訓練樣本。但在實際應用中往往無法獲取大量的已標注數據用于模型的訓練,但相關不同的領域可能存在大量可用的標注文本。所以在文本分類任務中目標領域標注數據較少,相關輔助領域存在大量標注數據,二者標注數據關聯的類別空間不同,但共享部分類別標簽的實際應用問題中,雖然SLDA在類別的約束下有效的提升了主題模型在文本分類任務的分類性能,但其是有監督學習方法,無法利用相關但不同源領域的數據進行輔助模型的訓練。
LDA主題模型為無監督主題模型,在模型訓練的過程中可以遷移源域數據知識進行輔助建模,但在建模過程中會因目標域與源域數據不滿足同分布而產生嚴重的主題偏移,從而導致“負遷移”現象,最終使得模型分類性能下降。
發明內容
為克服上述現有技術的不足,本發明提供了一種融合遷移學習與主題模型的文本分類方法,能夠解決解決上述現有技術無法在標注數據不足下訓練性能較好分類模型以及由于源域與目標域不滿足同分布而帶來的“負遷移”問題。
為實現上述目的,本發明的一個或多個實施例提供了如下技術方案:
一種融合遷移學習與主題模型的文本分類方法,包括:
建立共享主題知識的遷移主題模型Tr-SLDA;
模型訓練過程中在源域與目標域數據各自類別標簽的約束下,將其采樣到同一主題空間中,有效的緩解由于目標域與源域數據不滿足同分布而導致的“負遷移”現象;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東工商學院,未經山東工商學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010032236.9/2.html,轉載請聲明來源鉆瓜專利網。





