[發明專利]一種融合遷移學習與主題模型的文本分類方法及系統在審
| 申請號: | 202010032236.9 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111209402A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 唐煥玲;鄭涵;竇全勝;宋英杰;于立萍;魯明羽 | 申請(專利權)人: | 山東工商學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06K9/62;G06N20/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 264005 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 遷移 學習 主題 模型 文本 分類 方法 系統 | ||
1.一種融合遷移學習與主題模型的文本分類方法,其特征是,包括:
建立共享主題知識的遷移主題模型Tr-SLDA;
模型訓練過程中在源域與目標域數據各自類別標簽的約束下,將其采樣到同一主題空間中,有效的緩解由于目標域與源域數據不滿足同分布而導致的“負遷移”現象;
在訓練模型Tr-SLDA完成后,測試文檔的潛在主題空間是目標領域的文檔集Dt和訓練文檔集Ds共享的主題空間T,對測試文檔的每個詞的隱含主題進行采樣;
將待測文本輸入到訓練完成的Tr-SLDA模型,基于Tr-SLDA遷移主題模型利用Tr-SLDA-TC文本分類方法來預測待測文本類別。
2.如權利要求1所述的一種融合遷移學習與主題模型的文本分類方法,其特征是,Tr-SLDA中待估計的參數有文檔-主題概率分布、主題-詞概率分布、源域的類別-主題概率分布和目標域的類別-主題概率分布。
3.如權利要求1所述的一種融合遷移學習與主題模型的文本分類方法,其特征是,Tr-SLDA遷移主題參數估計時,采用Tr-SLDA-Gibbs算法。
4.如權利要求1所述的一種融合遷移學習與主題模型的文本分類方法,其特征是,在初始化詞的主題時加入文檔類別的先驗知識,將文檔的類別標號作為詞的初始化主題,采樣過程中對來自不同域文檔的詞采用不同的采樣策略,在確定了每個詞的隱含主題后,θ,δ和μ,通過統計頻次計算得到;
Tr-SLDA主題模型的參數為θ,δ和μ,其中θ表示文檔-主題分布,表示主題-詞分布,δ表示主題-Λt類之間的隱含語義分布,μ表示主題-Λs類之間的隱含語義分布,θ,δ和μ服從Dirichlet分布。
5.如權利要求1所述的一種融合遷移學習與主題模型的文本分類方法,其特征是,Tr-SLDA-Gibbs算法對來自源域特有類別、目標域特有類別和源域與目標域交叉類別分別采取不同的采樣策略,將源域與目標域在類別標簽的約束下采樣到同一主題空間。
6.如權利要求1所述的一種融合遷移學習與主題模型的文本分類方法,其特征是,將源域與目標域在類別標簽的約束下采樣到同一主題空間,計算時:
其中,z-i表示剔除向量z的第i項,y-m表示剔除向量y的第m項,表示剔除z的第i項(即第i個詞wi=t)主題k分配給詞t的次數,βt表示詞t的Dirichlet先驗,表示剔除z的第i項,主題k分配給文檔m中單詞的次數,αk表示主題k的Dirichlet先驗。
7.如權利要求1所述的一種融合遷移學習與主題模型的文本分類方法,其特征是,對來自不同域的文檔采用不同的采樣方式,將源域與目標域在其各自的類別標簽的約束下采樣到同一主題空間,有效利用與目標任務不同但相關的輔助源域數據進行輔助建模。
8.一種計算裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征是,所述處理器執行所述程序時實現以下步驟,包括:
建立共享主題知識的遷移主題模型Tr-SLDA;
模型訓練過程中在源域與目標域數據各自類別標簽的約束下,將其采樣到同一主題空間中,有效的緩解由于目標域與源域數據不滿足同分布而導致的“負遷移”現象;
在訓練模型Tr-SLDA完成后,測試文檔的潛在主題空間是目標領域的文檔集Dt和訓練文檔集Ds共享的主題空間T,對測試文檔的每個詞的隱含主題進行采樣;
將待測文本輸入到訓練完成的Tr-SLDA模型,推斷出待測文本的主題。
提出基于Tr-SLDA遷移主題模型的Tr-SLDA-TC文本分類方法來進行預測待測文本類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東工商學院,未經山東工商學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010032236.9/1.html,轉載請聲明來源鉆瓜專利網。





