[發明專利]基于跨語言神經主題模型的漢越新聞話題發現方法在審
| 申請號: | 202110326492.3 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN113076467A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 余正濤;夏琳杰;高盛祥;黃于欣;朱恩昌;張勇丙 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F40/289 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語言 神經 主題 模型 新聞 話題 發現 方法 | ||
1.基于跨語言神經主題模型的漢越新聞話題發現方法,其特征在于:所述方法包括:
Step1、通過融入主題語義信息的變分自編碼器神經主題模型分別得到漢越平行新聞篇章的主題向量;
Step2、利用平行語料主題向量對齊的特性預訓練出主題映射矩陣,將漢越新聞的主題向量表征到同一語義空間下;
Step3、對漢越可比新聞篇章處理得到各自的主題向量表示,通過映射將漢越新聞主題向量共同表征到漢越雙語語義空間中,進行主題向量的聚類,提取每個簇的主題詞作為事件的相關話題。
2.根據權利要求1所述的基于跨語言神經主題模型的漢越新聞話題發現方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、首先輸入一篇新聞文檔X,將其進行詞切分,對新聞文本編碼為詞袋表示Xs,使用兩層多層感知機將詞袋表示Xs編碼為低維稠密的統計特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示將新聞篇章表征為詞袋,X表示輸入的新聞文檔,Xs表示進行詞切分后的新聞樣本,即詞袋表示,MLP表示多層感知機;
為了能通過統計特征向量h得到新聞的主題向量,將傳統概率主題模型中的狄利克雷先驗分布轉化為高斯先驗,假設每一篇新聞文本X的樣本分布δ都屬于正態分布,經過線性變換后的h同樣屬于正態分布:
μ∈N(0,I) (3)
h∈N(0,I) (4)
然后使用神經網絡學習到h的正態分布均值μ與方差σ參數:
μ=wμh+bμ (5)
σ=wσh+bσ (6)
其中,w和b分別是權重矩陣和偏置矩陣,利用這種方式提取新聞文本X的統計特征并從中采樣出新聞的主題向量Z:
Z=με+σ (7)
ε通過采樣標準正態分布得到,通過編碼器訓練得到輸入新聞文本X的主題向量Z;
Step1.2、對詞表中的詞進行向量化后,將Step1.1中得到的主題向量Z作為錨點,與詞向量矩陣ρ進行點乘計算,計算每個詞與主題的相關性生成主題-詞的相關性矩陣α,在向量空間中與主題向量Z更相關的詞會在距離上逼近它,計算公式如下:
α=softmax(ρT·Z) (8)
ρ代表詞表的詞向量矩陣,在這一步中,引用了CBOW的思想,CBOW每個詞的計算過程如下:
wdn~softmax(ρTαdn) (9)
wdn是第d篇文檔中第n個目標詞,αdn表示目標詞wdn周圍窗口生成的上下文詞向量;將主題向量Z作為詞的上下文向量,對詞表中的每個詞都進行與主題向量Z進行一致性計算,在得到主題-詞的相關性矩陣α;
Step1.3、將主題向量Z與主題-詞相關性矩陣α相乘得到變分向量β:
β=softmax(Z·αT) (10)
利用softmax(·)函數進行歸一化操作后,對β進行采樣重構生成偽新聞文本
解碼器將輸入的新聞文本X進行編碼后,希望能夠學習到的變分向量β重構生成出偽新聞文本盡可能與原文本X相似,因此引入重構損失Lre:
其中,使用了log_softmax(·)函數優化模型損失的訓練,避免梯度爆炸;
利用調整KL散度帶來的損失迫使每一個輸入X的正態分布都服從標準正態分布,KL散度損失的目標函數如下:
因此總損失L為:
L=Lre+Lkl (14)
經過優化損失達到閾值收斂后,輸出新聞篇章的主題向量Z。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110326492.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效益處理含鋅塵泥的方法
- 下一篇:一種低壓BMS測試系統及方法





