[發(fā)明專利]一種基于平行語料庫的跨語種新聞主題相似性對(duì)比方法有效

申請(qǐng)?zhí)枺?/td>	201810245163.4	申請(qǐng)日：	2018-03-23
公開（公告）號(hào)：	CN108519971B	公開（公告）日：	2022-02-11
發(fā)明（設(shè)計(jì)）人：	王琦;于水源;曹軼臻;韓笑;戴長(zhǎng)松	申請(qǐng)（專利權(quán)）人：	中國傳媒大學(xué)
主分類號(hào)：	G06F40/216	分類號(hào)：	G06F40/216;G06F40/58;G06F40/289;G06F40/30
代理公司：	北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203	代理人：	劉萍
地址：	100024 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于平行語料庫語種新聞主題相似性對(duì)比方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于平行語料庫的跨語種新聞主題相似性對(duì)比方法，其特征在于：

擁有一個(gè)通用的中文和F語言兩個(gè)語種的平行語料庫；假設(shè)目標(biāo)新聞主題是T主題，外文語言是F，在不翻譯的情況下，F(xiàn)語言未知主題的文章中篩選出F語言的關(guān)于T主題的文章：

(1)平行語料庫中每個(gè)文檔都有獨(dú)立的主題分布，并且語言描述同一個(gè)主題、共享主題分布；首先，檢索中文中關(guān)于T主題的文章集，基于平行語料庫中的中文通用語料庫，由LDA主題模型算法得到文章集的中文LDA主題模型；

(2)然后，將中文的T主題LDA主題模型映射到廣義主題模型空間得到T主題的中文和F語言共享的LDA主題模型，使用LDA算法，由F語言的待篩選的未知主題的文章和平行語料庫中的F語言語料庫得到F語言LDA主題模型；

(3)將這廣義空間上的LDA主題模型和F語言LDA主題模型作對(duì)比，如果相似則認(rèn)為此待篩選文章是關(guān)于T主題的文章；不同語言中相同的主題含有相似的語義信息，所以不同語言的文本被表示在同一個(gè)廣義主題空間中；當(dāng)訓(xùn)練數(shù)據(jù)已經(jīng)用一種語言標(biāo)注以后，即，當(dāng)中文的某些新聞文章的主題模型生成之后，就把它映射的廣義的話題空間中，使用這種廣義的主題類，將外語的未知主題的新聞文章生成主題模型，與廣義空間的主題模型對(duì)比得到主題結(jié)果，步驟如下：

對(duì)于第個(gè)k主題Z_k，

(1)采樣中文C的通用語料庫的詞概率分布采樣外文F的通用語料庫的詞概率分布

(2)對(duì)于平行語料庫中第m對(duì)中文C、外文F文檔對(duì)，m∈[1，M]，采樣主題概率分布θ_m～Dirichlet(α)，

①對(duì)于中文文檔的第n^C個(gè)詞項(xiàng)，選擇隱含主題Z^C～Dirichlet(θ_m)，生成一個(gè)詞項(xiàng)

②對(duì)于外文文檔的第n^F個(gè)詞項(xiàng)，選擇隱含主題Z^F～Dirichlet(θ_m)，生成一個(gè)詞項(xiàng)

其中，C代表中文，F(xiàn)代表外文語種；θ_m表示第m對(duì)雙語平行文檔的主題概率分布；和分別表示第k個(gè)主題Z_k在中文和外文的詞匯分布概率；Z^C和Z^F分別表示第m對(duì)雙語平行文檔的源語言和目標(biāo)語言的第n^C、n^F個(gè)詞項(xiàng)的隱含主題；ω^C和ω^F分別表示第m對(duì)雙語平行文檔中文和外文的第n^C、n^F個(gè)詞項(xiàng)；M表示文檔集總對(duì)數(shù)；和分別表示第m對(duì)雙語平行文檔的中文和外文文檔的總數(shù)；θ_m服從Dirichlet分布且α是其先驗(yàn)參數(shù)并用于生成主題；和服從Dirichlet分布且β^C和β^F是其先驗(yàn)參數(shù)并用于產(chǎn)生詞項(xiàng)；其中，α、β^C、β^F是最大似然估計(jì)量，α表示“文檔-主題”概率分布，β^C表示中文“主題-詞項(xiàng)”概率分布、β^F表示外文“主題-詞項(xiàng)”概率分布；這里選取整個(gè)語料庫的概率作為優(yōu)化目標(biāo)函數(shù)，通過對(duì)目標(biāo)函數(shù)進(jìn)行最大化估計(jì)得到α、β^C、β^F的值，進(jìn)而得到LDA模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國傳媒大學(xué)，未經(jīng)中國傳媒大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810245163.4/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】