[發(fā)明專利]一種基于相似度匹配的樞軸語言翻譯方法和裝置有效
| 申請?zhí)枺?/td> | 201310636884.5 | 申請日: | 2013-12-02 |
| 公開(公告)號: | CN103605644B | 公開(公告)日: | 2017-02-01 |
| 發(fā)明(設計)人: | 朱聰慧;朱曉寧;趙鐵軍;鄭德權;楊沐昀;曹海龍;徐冰 | 申請(專利權)人: | 哈爾濱工業(yè)大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 哈爾濱市松花江專利商標事務所23109 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相似 匹配 樞軸 語言 翻譯 方法 裝置 | ||
技術領域
本發(fā)明屬于機器翻譯技術領域,涉及一種基于相似度匹配的樞軸語言翻譯方法和裝置。
背景技術
基于統(tǒng)計的機器翻譯技術興起于20世紀90年代,它可以從雙語平行語料庫中自動提取翻譯規(guī)則,不需要人工干預,具有廣泛的語言適用性,是當前使用最為廣泛的機器翻譯系統(tǒng)。基于統(tǒng)計的機器翻譯系統(tǒng)的翻譯質量很大程度上取決于雙語平行語料庫的質量。語料庫的質量越高、數(shù)據(jù)數(shù)量越高,則使用該語料庫所獲得的統(tǒng)計機器翻譯系統(tǒng)的翻譯質量越高。但對于大多數(shù)語言對都面臨著無法獲得足夠數(shù)量的高質量語料的問題。
針對語料稀疏的問題,目前普遍采用的解決方案是引入第三種語言,即樞軸語言。對于樞軸語言的引入,存在著下列兩個方面的要求:
第一,源語言與樞軸語言之間存在著大量高質量雙語平行語料,滿足構建源語言到樞軸語言翻譯系統(tǒng)的需要;
第二,樞軸語言與目標語言之間存在著大量高質量雙語平行語料,滿足構建樞軸語言到目標語言翻譯系統(tǒng)的需要。
給定滿足上述條件的樞軸語言,如果存在一個源語言到樞軸語的翻譯規(guī)則(規(guī)則1)及一個該樞軸語到目標語的翻譯規(guī)則(規(guī)則2),那么可以構建出一個源語言到目標語的翻譯規(guī)則。該方法嚴格要求規(guī)則1與規(guī)則2中的樞軸語短語完全相同。這會導致一些潛在的源語言到目標語翻譯規(guī)則丟失。
發(fā)明內容
本發(fā)明為解決現(xiàn)有翻譯方法和裝置在源語言-目標語翻譯規(guī)則庫構建中要求源語言到樞軸語的翻譯規(guī)則與該樞軸語到目標語的翻譯規(guī)則,即規(guī)則1和規(guī)則2中的樞軸語短語必須完全相同而導致的的潛在翻譯規(guī)則丟失問題,而提出一種基于相似度匹配的樞軸語言翻譯方法和裝置。
本發(fā)明中一種基于相似度匹配的樞軸語言翻譯方法,具體是按照以下步驟進行:
步驟一、建立源語言-目標語翻譯規(guī)則庫,具體包括以下步驟:
步驟一一、建立源語言-樞軸語翻譯規(guī)則庫,在源語言-樞軸語翻譯規(guī)則庫中,將樞軸語短語表示為向量形式;
步驟一二、建立樞軸語-目標語翻譯規(guī)則庫,在樞軸語-目標語翻譯規(guī)則庫中,將樞軸語短語表示為向量形式;
步驟一三、在源語言-樞軸語翻譯規(guī)則庫中查找與源語言短語語義匹配的至少一個第一樞軸語短語的向量表示;
步驟一四、在樞軸語-目標語翻譯規(guī)則庫中查找與第一樞軸語短語具有向量相似性的至少一個第二樞軸語短語的向量表示;所述的具有向量相似性的判斷依據(jù)是指兩個向量之間的夾角的余弦值大于0.8。
步驟一五、在樞軸語-目標語翻譯規(guī)則庫中查找與第二樞軸語短語的向量表示匹配的目標語短語;
步驟一六、將各所述源語言短語與目標語短語組成源語言-目標語翻譯規(guī)則庫;
步驟二、根據(jù)步驟一中建立的源語言-目標語翻譯規(guī)則庫對源語言進行翻譯。
本發(fā)明中一種基于相似度匹配的樞軸語言翻譯裝置,所述裝置包括:
一、樞軸語言短語向量表示模塊410,用于在源語言-樞軸語翻譯規(guī)則庫中將樞軸語短語表示為向量形式以及在樞軸語-目標語翻譯規(guī)則庫中將樞軸語短語表示為向量形式;
二、樞軸語言短語查找模塊420,用于在源語言-樞軸語言翻譯規(guī)則庫中查找與第一源語言短語語義匹配的至少一個第一樞軸語言短語的向量表示;
三、向量相似度計算模塊430,用于計算樞軸語-目標語翻譯規(guī)則庫中的樞軸語短語與第一樞軸語短語的語義相似度;
四、目標語短語查找模塊440,用于在樞軸語-目標語翻譯規(guī)則庫中查找與第一樞軸語短語具有語義相似度的目標語短語;
五、短語對組合模塊450,用于將所述第一源語言短語與第一目標語短語組合,形成至少一個源語言短語與目標語短語之間的短語對;
六、短語對存儲模塊460,用于將形成的至少一個源語言短語與目標語言短語之間的短語對存儲至源語言-目標語翻譯規(guī)則庫。
七、目標語短語輸出模塊470,用于根據(jù)源語言-目標語翻譯規(guī)則庫將與源語言對應的目標語輸出,完成翻譯處理。
本發(fā)明優(yōu)點:
本發(fā)明通過對源語言-樞軸語翻譯規(guī)則庫以及樞軸語-目標語翻譯規(guī)則庫中的樞軸語短語進行向量表示,并計算各樞軸語短語之間的語義相似度來構建源語言-目標語翻譯規(guī)則庫,解決了樞軸語翻譯方法中要求的源語言到樞軸語的翻譯規(guī)則與該樞軸語到目標語的翻譯規(guī)則,即規(guī)則1和規(guī)則2中的樞軸語短語必須完全相同而導致的潛在翻譯規(guī)則丟失問題。
附圖說明
圖1基于相似度匹配的樞軸語言翻譯方法流程圖;
圖2基于相似度匹配的樞軸語言翻譯方法裝置結構示意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業(yè)大學,未經(jīng)哈爾濱工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310636884.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





