[發(fā)明專利]基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201310689351.3 | 申請(qǐng)日: | 2013-12-16 |
| 公開(kāi)(公告)號(hào): | CN103631773A | 公開(kāi)(公告)日: | 2014-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 曹海龍;劉淋;趙鐵軍;鄭德權(quán);楊沐昀;徐冰;朱聰慧 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28;G06F17/27 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 領(lǐng)域 相似性 度量 方法 統(tǒng)計(jì) 機(jī)器翻譯 | ||
1.基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述統(tǒng)計(jì)機(jī)器翻譯方法為在現(xiàn)有統(tǒng)計(jì)機(jī)器翻譯方法中,在從雙語(yǔ)平行的訓(xùn)練語(yǔ)料庫(kù)中選取與翻譯文本的領(lǐng)域相似性高的若干篇文檔作為訓(xùn)練語(yǔ)料。
2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,在從雙語(yǔ)平行的訓(xùn)練語(yǔ)料庫(kù)中選取與翻譯文本的領(lǐng)域最相似的若干篇文檔作為訓(xùn)練語(yǔ)料的過(guò)程為:將翻譯文本逐一與雙語(yǔ)平行訓(xùn)練語(yǔ)料庫(kù)中的文檔進(jìn)行相似性度量,然后對(duì)所有度量結(jié)果進(jìn)行排序,選取度量結(jié)果最佳的若干篇文檔作為訓(xùn)練語(yǔ)料。
3.根據(jù)權(quán)利要求2所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,將翻譯文本與雙語(yǔ)平行訓(xùn)練語(yǔ)料庫(kù)中的任意一個(gè)文檔進(jìn)行相似性度量的方法為:
采用相對(duì)詞頻作為特征代表,采用余弦距離函數(shù)、變分距離函數(shù)、歐式距離函數(shù)、偏斜距離函數(shù)或者JS距離函數(shù)作為相似度函數(shù)進(jìn)行文當(dāng)相似性度量。
4.根據(jù)權(quán)利要求3所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述相對(duì)詞頻的獲得方法為采用TF-IDF公式計(jì)算相對(duì)詞頻(TF),所述TF-IDF公式為:TF-IDF=詞頻(TF)×逆文檔頻率(IDF),其中:
5.根據(jù)權(quán)利要求2所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,將翻譯文本與雙語(yǔ)平行訓(xùn)練語(yǔ)料庫(kù)中的任意一個(gè)文檔進(jìn)行相似性度量的方法為:
采用主題模型作為特征代表,采用余弦距離函數(shù)、變分距離函數(shù)、歐式距離函數(shù)、偏斜距離函數(shù)或者JS距離函數(shù)作為相似度函數(shù)進(jìn)行文當(dāng)相似性度量。
6.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述偏斜距離函數(shù)為:
Sα(q,r,α)=D(q(y)||αr(y)+(1-α)q(y)),α∈[0,1),
所述函數(shù)中,q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布,D(q||r)表示KL距離,α表示q(y)和r(y)這兩個(gè)分布在進(jìn)行KL距離計(jì)算時(shí)的混合程度。它是非負(fù)的、累加的、非對(duì)稱的距離函數(shù),所述非對(duì)稱是指D(q||r)≠D(r||q),其中:
7.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述所述余弦距離函數(shù)為:
cos(q(y),r(y))=q(y)×r(y)/||q(y)||||r(y)||
所述余弦距離函數(shù)中:q(y)和r(y)表示兩文檔中的特征代表概率分布。
8.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述變分距離函數(shù)為:Var(q,r)=∑y|q(y)-r(y)|,q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布。
9.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述歐式距離函數(shù)(Euclidean?distance?function)為:q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布。
10.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述JS距離函數(shù)為:JS(q,r)=1/2[D(q||avg(q,r)+D(r||avg(q,r))],q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310689351.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于異類關(guān)系確定目標(biāo)相似性的方法和系統(tǒng)
- 相似性匹配系統(tǒng)和方法
- 相似性匹配系統(tǒng)和方法
- 興趣點(diǎn)預(yù)測(cè)和推薦中的用戶時(shí)空相似性度量方法
- 一種基于相似性和邏輯矩陣分解的miRNA?疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)方法
- 一種結(jié)合二分網(wǎng)絡(luò)和文本的醫(yī)院科室相似性分析方法
- 一種基于相似性學(xué)習(xí)及其增強(qiáng)的細(xì)胞類型鑒定方法
- 確定企業(yè)屬性相似性、重名對(duì)象判定
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的lncRNA-蛋白質(zhì)相互作用預(yù)測(cè)方法





