[發明專利]基于跨語言神經主題模型的漢越新聞話題發現方法在審
| 申請號: | 202110326492.3 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN113076467A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 余正濤;夏琳杰;高盛祥;黃于欣;朱恩昌;張勇丙 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F40/289 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語言 神經 主題 模型 新聞 話題 發現 方法 | ||
本發明涉及基于跨語言神經主題模型的漢越新聞話題發現方法,屬于自然語言處理技術領域。漢越的平行語料稀缺,訓練高質量的雙語詞嵌入較為困難,而且新聞文本一般較長,雙語詞嵌入的方法難以很好的表征文本,本發明提出一種基于跨語言神經主題模型的漢越新聞話題發現方法(CL?NTM),將雙語語義對齊轉化為雙語主題對齊任務。首先針對漢語和越南語分別訓練基于變分自編碼器的神經主題模型,得到單語的主題抽象表征,然后利用小規模的平行語料將雙語主題映射到同一語義空間,最后使用K?means方法對雙語主題表征進行聚類,發現新聞事件簇的話題。實驗結果表明,CL?NTM針對漢越低資源話題發現任務取得了很好的效果。
技術領域
本發明涉及基于跨語言神經主題模型的漢越新聞話題發現方法,屬于自然語言處理技術領域。
背景技術
漢越新聞話題發現就是將漢越新聞報道進行聚類再發現相關的話題。這幫助人們更容易了解同一事件漢越不同的話題討論。漢越新聞話題發現任務可以看作是對雙語新聞聚類的問題,其主要難點在于克服中文與越南文新聞報道之間的語言差異,將兩種語言表征到同一語義空間下進行新聞事件聚類。以往跨語言話題發現方法主要分為基于翻譯的方法和利用雙語詞典或平行語料訓練雙語詞嵌入的方法。
發明內容
本發明提供了基于跨語言神經主題模型的漢越新聞話題發現方法,以解決在漢越低資源場景中,由于平行語料的稀缺,構建雙語詞典和訓練高質量的雙語詞嵌入變得十分困難,漢越新聞文本很難對齊到同一語義空間中的問題。
本發明主要針對新聞長文本聚類,使用雙語詞嵌入對長文本進行表示的方法不能很好的提取到長文本中重要的詞的信息,從而導致新聞長文本的聚類效果欠佳。針對新聞文本而言,通常類屬于同一事件的新聞報道大多都描述了相同或相近的主題,利用這種主題的關聯性能很好的發現文本間的關聯關系,這為漢越新聞的話題發現提供了新的途徑,使用新聞主題特征對新聞文本進行表征后聚類,將漢越雙語的語義對齊任務轉化為新聞主題對齊,利用少量平行篇章主題在空間中的對齊構建雙語語義空間,降低了對齊的難度,并對漢越新聞主題進行聚類,抽取主題詞代表事件簇的話題,最終實現漢越新聞話題發現。
本發明的技術方案是:基于跨語言神經主題模型的漢越新聞話題發現方法,
所述方法包括:
Step1、通過融入主題語義信息的變分自編碼器神經主題模型分別得到漢越平行新聞篇章的主題向量;
Step2、利用平行語料主題向量對齊的特性預訓練出主題映射矩陣,將漢越新聞的主題向量表征到同一語義空間下;
Step3、對漢越可比新聞篇章處理得到各自的主題向量表示,通過映射將漢越新聞主題向量共同表征到漢越雙語語義空間中,進行主題向量的聚類,提取每個簇的主題詞作為此類事件的相關話題。
作為本發明的進一步方案,所述步驟Step1的具體步驟為:
Step1.1、首先輸入一篇新聞文檔X,將其進行詞切分,對新聞文本編碼為詞袋表示Xs,但由于詞袋模型存在向量稀疏問題,使用兩層多層感知機將詞袋表示Xs編碼為低維稠密的統計特征向量h:
Xs=fbow(X) (1)
h=MLP(Xs) (2)
fbow(·)表示將新聞篇章表征為詞袋,X表示輸入的新聞文檔,Xs表示進行詞切分后的新聞樣本,即詞袋表示,MLP表示多層感知機;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110326492.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效益處理含鋅塵泥的方法
- 下一篇:一種低壓BMS測試系統及方法





