[發(fā)明專利]一種基于平行語料庫的跨語種新聞主題相似性對(duì)比方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810245163.4 | 申請(qǐng)日: | 2018-03-23 |
| 公開(公告)號(hào): | CN108519971B | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 王琦;于水源;曹軼臻;韓笑;戴長(zhǎng)松 | 申請(qǐng)(專利權(quán))人: | 中國傳媒大學(xué) |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/58;G06F40/289;G06F40/30 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100024 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 平行 語料庫 語種 新聞 主題 相似性 對(duì)比 方法 | ||
1.一種基于平行語料庫的跨語種新聞主題相似性對(duì)比方法,其特征在于:
擁有一個(gè)通用的中文和F語言兩個(gè)語種的平行語料庫;假設(shè)目標(biāo)新聞主題是T主題,外文語言是F,在不翻譯的情況下,F(xiàn)語言未知主題的文章中篩選出F語言的關(guān)于T主題的文章:
(1)平行語料庫中每個(gè)文檔都有獨(dú)立的主題分布,并且語言描述同一個(gè)主題、共享主題分布;首先,檢索中文中關(guān)于T主題的文章集,基于平行語料庫中的中文通用語料庫,由LDA主題模型算法得到文章集的中文LDA主題模型;
(2)然后,將中文的T主題LDA主題模型映射到廣義主題模型空間得到T主題的中文和F語言共享的LDA主題模型,使用LDA算法,由F語言的待篩選的未知主題的文章和平行語料庫中的F語言語料庫得到F語言LDA主題模型;
(3)將這廣義空間上的LDA主題模型和F語言LDA主題模型作對(duì)比,如果相似則認(rèn)為此待篩選文章是關(guān)于T主題的文章;不同語言中相同的主題含有相似的語義信息,所以不同語言的文本被表示在同一個(gè)廣義主題空間中;當(dāng)訓(xùn)練數(shù)據(jù)已經(jīng)用一種語言標(biāo)注以后,即,當(dāng)中文的某些新聞文章的主題模型生成之后,就把它映射的廣義的話題空間中,使用這種廣義的主題類,將外語的未知主題的新聞文章生成主題模型,與廣義空間的主題模型對(duì)比得到主題結(jié)果,步驟如下:
對(duì)于第個(gè)k主題Zk,
(1)采樣中文C的通用語料庫的詞概率分布采樣外文F的通用語料庫的詞概率分布
(2)對(duì)于平行語料庫中第m對(duì)中文C、外文F文檔對(duì),m∈[1,M],采樣主題概率分布θm~Dirichlet(α),
①對(duì)于中文文檔的第nC個(gè)詞項(xiàng),選擇隱含主題ZC~Dirichlet(θm),生成一個(gè)詞項(xiàng)
②對(duì)于外文文檔的第nF個(gè)詞項(xiàng),選擇隱含主題ZF~Dirichlet(θm),生成一個(gè)詞項(xiàng)
其中,C代表中文,F(xiàn)代表外文語種;θm表示第m對(duì)雙語平行文檔的主題概率分布;和分別表示第k個(gè)主題Zk在中文和外文的詞匯分布概率;ZC和ZF分別表示第m對(duì)雙語平行文檔的源語言和目標(biāo)語言的第nC、nF個(gè)詞項(xiàng)的隱含主題;ωC和ωF分別表示第m對(duì)雙語平行文檔中文和外文的第nC、nF個(gè)詞項(xiàng);M表示文檔集總對(duì)數(shù);和分別表示第m對(duì)雙語平行文檔的中文和外文文檔的總數(shù);θm服從Dirichlet分布且α是其先驗(yàn)參數(shù)并用于生成主題;和服從Dirichlet分布且βC和βF是其先驗(yàn)參數(shù)并用于產(chǎn)生詞項(xiàng);其中,α、βC、βF是最大似然估計(jì)量,α表示“文檔-主題”概率分布,βC表示中文“主題-詞項(xiàng)”概率分布、βF表示外文“主題-詞項(xiàng)”概率分布;這里選取整個(gè)語料庫的概率作為優(yōu)化目標(biāo)函數(shù),通過對(duì)目標(biāo)函數(shù)進(jìn)行最大化估計(jì)得到α、βC、βF的值,進(jìn)而得到LDA模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國傳媒大學(xué),未經(jīng)中國傳媒大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810245163.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種創(chuàng)建共享語料庫的方法
- 口語化語句提取的方法及裝置
- 面向任務(wù)式對(duì)話系統(tǒng)意圖識(shí)別的語料庫生成方法和裝置
- 一種數(shù)據(jù)驅(qū)動(dòng)的語料庫自動(dòng)化構(gòu)建方法
- 一種拼寫數(shù)據(jù)的生成方法
- 訓(xùn)練語料庫細(xì)化和增量更新
- 用于電子文檔的內(nèi)容語料庫
- 作者創(chuàng)建的數(shù)字代理
- 情感語料庫的擴(kuò)展方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 意圖識(shí)別模型的訓(xùn)練語料生成方法及其相關(guān)設(shè)備
- 支持多語種接口的電子裝置及方法
- 一種模塊化語種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語種的配置方法及裝置
- 一種多語種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語種的翻譯方法、裝置及設(shè)備
- 一種語種識(shí)別模型訓(xùn)練、語種識(shí)別的方法和相關(guān)裝置
- 語種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)





