[發明專利]一種基于平行語料庫的跨語種新聞主題相似性對比方法有效
| 申請號: | 201810245163.4 | 申請日: | 2018-03-23 |
| 公開(公告)號: | CN108519971B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 王琦;于水源;曹軼臻;韓笑;戴長松 | 申請(專利權)人: | 中國傳媒大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/58;G06F40/289;G06F40/30 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100024 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 平行 語料庫 語種 新聞 主題 相似性 對比 方法 | ||
本發明公開了一種基于平行語料庫的跨語種新聞主題相似性對比方法。步驟如下:(1)平行語料庫中每個文檔都有獨立的主題分布,并且語言描述同一個主題、共享主題分布;首先,檢索中文中關于T主題的文章集,基于平行語料庫中的中文通用語料庫,由LDA主題模型算法得到文章集的中文LDA主題模型;然后,將中文的T主題LDA主題模型映射到廣義主題模型空間得到T主題的中文和F語言共享的LDA主題模型,使用LDA算法,由F語言的待篩選的未知主題的文章和平行語料庫中的F語言語料庫得到F語言LDA主題模型;將這廣義空間上的LDA主題模型和F語言LDA主題模型作對比,如果相似則認為此待篩選文章是關于T主題的文章。本發明能夠快速準確不經翻譯自動篩選出特定主題的文章。
技術領域
本專利提出一種基于平行語料庫的跨語種新聞主題相似性對比的方法。本專利方法可以不經過翻譯而是自動化地篩選出特定主題外文文章。前提是有雙語平行語料庫,在LDA主題模型的基礎之上,發明雙語LDA主題模型,并借助并行計算框架來實現一種并行化處理,利用本專利方法可以快速、高效地實現多語種新聞事件報道自動篩選。涉及到語料庫、詞頻分析、相似性計算等領域。
背景技術
如何在無人工翻譯的情況下快速完成跨語種新聞事件主題相似性自動比對,進而實現相同主題的多語種新聞事件報道自動篩選,減少人工直接翻譯成本,及時準確的掌握外媒新聞輿情是亟待解決的問題。
近年來機器翻譯在語言翻譯領域中取得了很大的提高和進步。機器翻譯是利用計算機把一種自然語言轉換成另一種自然語言的過程。統計學的方法應用于機器翻譯方法之后,使得機器翻譯結果的準確率逐漸提高。但是,現今技術條件下的實際應用中,一般使用機器翻譯和人工翻譯結合的方法:先使用機器翻譯方法,將文章翻譯為另一種語言,然后在經過人工的修改和校準,才能得到一篇完整、準確的文章。然而,經過人工翻譯這一過程就增加了人力和時間的消耗,效率降低,增加成本。這使得傳統的機器翻譯在應對海量多語種新聞報道翻譯時表現出不及時、不準確的不足。所以,本專利提出一種基于語料庫的相似性對比方法來篩選新聞文章,用于在機器翻譯之前的新聞主題識別篩選的預處理過程,達到減少無關報道噪聲,節省人力物力,提高效率的目的。
針對上述問題,本專利提出了一種在不翻譯情況下基于平行語料庫的跨語種新聞主題相似性對比的方法。本專利提出的方法基于平行語料庫。語料庫是大規模電子文本庫。它是以電子計算機為載體,將實際應用中真實出現過的語言材料,經過科學的取樣和合理的分析與處理,成為真正有用的電子文本庫。平行語料庫是一組文本,每種文本除自身外還有一種或者一種以上的翻譯語文本,最簡單的平行語料庫設計兩種語言文本—原文和譯文。本專利就是基于平行語料庫,分析得出兩種語言的分詞規則和詞頻分布規律。首先挑選出中文中關于某個主題事件的新聞報道,基于中文通用語料庫,利用LDA算法生成該主題文章的主題模型;然后選取待篩選的外文文章基于外文通用語料庫提取出文本特征;最后將由外文新聞文章得到的文本特征與由中文得到的某個主題文章的主題模型作對比,若相似,則判定為此外文文章是關于該主題的外文文章。
本專利在LDA主題模型的基礎之上,擴展成為雙語LDA主題模型。不同于傳統的LDA主題模型的每一個文檔都有獨立的主題分布,雙語LDA模型利用雙語平行語料庫,共享主題分布,不同語言描述同一個主題。另外,平行語料庫是使用不同語言描述的,詞頻分布可以不同。本專利方法是在雙語平行語料庫的基礎上,建立廣義空間上的雙語LDA主題模型,當有新的語料時,生成新的LDA模型,與雙語LDA模型作對比用以判斷新語料的主題分類。
本專利使用Gibbs對分布進行采樣,但考慮到海量訓練樣本的情況,為了提高LDA模型生成效率,這里借助并行計算框架spark來實現一種并行化LDA算法。相比傳統的LDA算法,本專利中的并行LDA算法做了一些改進使其實現并行化,加入時間戳這一特征,在分布式環境中進行采樣過程,能夠提高整個過程的效率和準確率。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國傳媒大學,未經中國傳媒大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810245163.4/2.html,轉載請聲明來源鉆瓜專利網。





