[發明專利]一種漢藏命名實體互譯方法及裝置有效
| 申請號: | 201710772174.3 | 申請日: | 2017-08-31 |
| 公開(公告)號: | CN107608955B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 張國喜 | 申請(專利權)人: | 張國喜 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/55;G06F40/58 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立;陳璐 |
| 地址: | 810000 青*** | 國省代碼: | 青海;63 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 命名 實體 方法 裝置 | ||
本發明涉及一種漢藏命名實體互譯方法及裝置,通過建立漢藏對照命名實體數據庫,為每一個不同的命名實體分配唯一一個對應的翻譯用詞,實現漢藏互譯過程中中文命名實體與藏文命名實體之間的一一對應,以提高機器翻譯的準確度,以及在還原時的準確性。
技術領域
本發明涉及語言翻譯技術領域,具體涉及一種漢藏命名實體互譯方法及裝置。
背景技術
隨著計算機網絡平臺的發展,信息傳遞成為人們生活工作中的非常重要的內容,機器翻譯也隨之發展起來,但是翻譯的準確率成為人們廣泛使用機器翻譯系統的一個主要的瓶頸,特別是漢藏機器翻譯中命名實體沒有統一的翻譯標準,加之命名實體當用普通漢字時一字不同音、同音不同字以及一字具有多重詞性的現象普遍存在,以前采取的翻譯方法是將具有一字不同音,同音不同字以及一字具有多重詞性的命名實體按照意譯或者音譯譯成同一個漢字或同一個藏文字,這對機器翻譯的準確性是十分不利的,而且當需要將譯文還原成源語料時,現有的翻譯方法幾乎不可能實現準確還原。
發明內容
本發明針對現有技術中的技術問題,提供一種漢藏命名實體互譯方法及裝置,通過建立漢藏對照命名實體數據庫,以提高機器翻譯的準確度。
本發明解決上述技術問題的技術方案如下:
一方面,本發明提供一種漢藏命名實體互譯方法,包括以下步驟:
S1,獲取待翻譯的命名實體;
S2,根據所述命名實體查找預先建立的命名實體庫,判斷所述命名實體庫中是否存在與所述命名實體匹配的命名實體對,若存在,則根據所述命名實體對獲取與所述命名實體對應的翻譯用詞,否則執行步驟S3;
S3,根據所述命名實體的讀音在預先建立的標準用詞數據庫中查找與所述命名實體的讀音相同的所有備選翻譯用詞,選取其中一個未配對的備選翻譯用詞作為所述命名實體的翻譯用詞,并將所述命名實體與所述翻譯用詞組成命名實體對,存入命名實體庫中;
其中,所述命名實體庫用于存儲命名實體對,所述命名實體對包括命名實體及其唯一對應的翻譯用詞。
本發明的有益效果是:命名實體對包括命名實體及其唯一對應的翻譯用詞,通過命名實體對可以實現漢藏命名實體的一一對應,當出現同音不同字的情況時,同樣選取同音不同字的翻譯用詞對命名實體進行翻譯,有效解決了譯詞混亂的現象。上述發明方法,填補和完成藏漢命名實體庫的空白和建設,規范命名實體的翻譯標準,制定人名用詞一一對應標準,以提高機器翻譯的準確度,并為漢藏互譯時還原原譯打下基礎,再通過語料庫統計分析完成命名實體的詞性標注和規則制定,使機器翻譯準確率達到98%以上。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述獲取待翻譯的命名實體包括:獲取待翻譯語料,根據所述待翻譯語料所在語種的語法規則及詞性規則對所述待翻譯語料進行切分,得到所述待翻譯的命名實體。
采用上述進一步方案的有益效果是實現了對語料的進行快速、有效地切分,切分準確性高,提高了藏漢翻譯處理的速度和正確性。
進一步,所述標準用詞數據庫用于存儲中文命名標準用詞和藏文命名標準用詞;若待翻譯的命名實體為漢語,則在所述標準用詞數據庫中存儲的藏文命名標準用詞中查找所述命名實體的備選翻譯用詞,若待翻譯的命名實體為藏語則在所述標準用詞數據庫中存儲的漢語命名標準用詞中查找所述命名實體的備選翻譯用詞;
所述標準用詞數據庫中根據讀音分別將所述命名標準用詞進行分組,并按照漢語發音進行排序,若分組中包含多個同音的命名標準用詞,則根據各個命名標準用詞在對應語種中的使用頻率進行二次排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張國喜,未經張國喜許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710772174.3/2.html,轉載請聲明來源鉆瓜專利網。





