[發(fā)明專利]基于音節(jié)嵌入的藏漢人名音譯方法有效

申請(qǐng)?zhí)枺?/td>	201810059615.X	申請(qǐng)日：	2018-01-22
公開（公告）號(hào)：	CN108197122B	公開（公告）日：	2018-11-23
發(fā)明（設(shè)計(jì)）人：	夏建華;張進(jìn)兵;韓立新	申請(qǐng)（專利權(quán)）人：	河海大學(xué)
主分類號(hào)：	G06F17/28	分類號(hào)：	G06F17/28
代理公司：	南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224	代理人：	董建林
地址：	211100 江蘇***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音節(jié) 嵌入嵌入的漢語平行語料庫相似度量序列生成音譯系統(tǒng) 成分袋候選項(xiàng) 語料平行語音多樣性
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開一種基于音節(jié)嵌入的藏漢人名音譯方法，利用藏語音節(jié)和漢語音節(jié)來訓(xùn)練音節(jié)成分袋BOC模型，分別得到藏語音節(jié)嵌入和漢語音節(jié)嵌入表示；根據(jù)音節(jié)的嵌入表示來實(shí)現(xiàn)從藏語人名到漢語人名的音譯序列生成。本發(fā)明摒棄了傳統(tǒng)音譯過程中借助語音作為平行語料之間的相似度量，利用BOC模型得到的音節(jié)嵌入能夠克服平行語料庫規(guī)模小而導(dǎo)致某些字詞缺失對(duì)音譯系統(tǒng)的影響。本發(fā)明克服了傳統(tǒng)方法對(duì)于缺失字詞的音譯的局限性，提高了音譯結(jié)果中字詞的多樣性和擴(kuò)展了可候選項(xiàng)，得到更好的音譯結(jié)果。

技術(shù)領(lǐng)域

本發(fā)明涉及文字處理技術(shù)領(lǐng)域，尤其涉及一種基于音節(jié)嵌入的藏漢人名音譯方法。

背景技術(shù)

把一種語言的文字序列轉(zhuǎn)換成另一種語言對(duì)應(yīng)的意義相同文字序列，是翻譯的基本過程。這也是從事藏文古文獻(xiàn)資料漢化工作者的基本任務(wù)，在這個(gè)活動(dòng)過程中，翻譯專家在翻譯一些人名、地名等專有名詞時(shí)，則不采用意譯，而采用音譯，也就是根據(jù)藏文人名、地名的字符發(fā)音轉(zhuǎn)換成漢文中對(duì)應(yīng)的發(fā)音相同或相似的字構(gòu)成的人名、地名。然而，在人工翻譯過程中，受人為翻譯的因素影響，出現(xiàn)了許多藏漢音譯的不規(guī)范形式，例如：1)漢語方言的差異導(dǎo)致漢語音譯的差異：如不同的翻譯人可以將地名音譯為“僧達(dá)阿冬”、“申達(dá)阿洞”、“孫達(dá)阿東”等；2)藏語方言(藏語有三大方言：衛(wèi)藏、康巴、安多)的差異性導(dǎo)致漢語音譯的不同：比如地名曾被音譯為“強(qiáng)巴”、“祥巴”、“向巴”等幾種譯法；3)由于藏文書面語與口語的語音偏差造成音譯漢語語句的不同等。

計(jì)算機(jī)技術(shù)的發(fā)展，以及其與語言信息處理技術(shù)的結(jié)合所形成的機(jī)器音譯，克服了前面討論的人工音譯的缺陷，比如，采用藏語官方版的拉薩藏語發(fā)音制作藏漢平行語料，那么在使用音譯機(jī)器音譯時(shí)，則不會(huì)出現(xiàn)康巴、安多兩種方言對(duì)音譯結(jié)果的干擾。目前存在的機(jī)器音譯方法有許多，主要如下：

基于規(guī)則的方法，包括基于字形和基于語音的音譯，前者通過字形匹配，后者采用平行語音語料匹配，解決了約定俗成的音譯，如只可譯為文成公主；

基于統(tǒng)計(jì)的方法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法，當(dāng)某些約定俗成的音譯出現(xiàn)兩種和兩種以上的譯法，則可以依據(jù)統(tǒng)計(jì)權(quán)重來選擇。

但是，以上這些方法都受限于人工標(biāo)注語料的數(shù)據(jù)量有限和涉及領(lǐng)域少，比如，我們需要將地名：和人名：分別音譯成漢文，但是平行語料中沒有此詞條，則可能導(dǎo)致基于規(guī)則和統(tǒng)計(jì)的方法也不能找到發(fā)音相似的音譯：“僧達(dá)阿冬”、“森達(dá)頓木”、“申達(dá)阿洞”、“孫達(dá)阿東”和“索羅西”、“索洛溪”等，也就是以上這些方法在遇到了未在平行語料中出現(xiàn)的詞條，就不能生成相應(yīng)的音譯漢文序列，這也是這些方法目前存在的不足和局限性。

發(fā)明內(nèi)容

本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足，提供一種基于音節(jié)嵌入的藏漢人名音譯方法，克服了傳統(tǒng)方法在音譯結(jié)果中同音字可候選的局限性，提高了音譯結(jié)果中字詞的多樣性和可選擇性。

為達(dá)到上述目的，本發(fā)明所采用的技術(shù)方案是：基于音節(jié)嵌入的藏漢人名音譯方法，該方法包括如下步驟：

對(duì)藏文、漢文分別進(jìn)行音節(jié)化，得到藏文音節(jié)和漢文音節(jié)，利用藏文音節(jié)和漢文音節(jié)訓(xùn)練音節(jié)成分袋BOC模型，分別得到藏文音節(jié)嵌入表示和漢文音節(jié)嵌入表示；根據(jù)音節(jié)嵌入表示、利用最大熵音譯模型實(shí)現(xiàn)從藏文人名到漢文人名的音譯。

進(jìn)一步的，音節(jié)化的具體方法如下：

將平行語料和非平行語料中的藏文和漢文分別進(jìn)行音節(jié)化，包括音節(jié)劃分和音節(jié)拆分；

藏文的音節(jié)化處理是指先將藏文語料按按音節(jié)劃分，再進(jìn)行音節(jié)的成分化處理；

漢文的音節(jié)化處理是先將漢字進(jìn)行拼音化，再按音節(jié)劃分和成分化處理為：聲母、第一韻母、第二韻母和聲調(diào)；

針對(duì)每個(gè)音節(jié)構(gòu)建一個(gè)兩層多叉樹：根節(jié)點(diǎn)為音節(jié)，葉子節(jié)點(diǎn)為相同發(fā)音的漢字。

進(jìn)一步的，漢字拼音化過程中，相同拼音但不同聲調(diào)應(yīng)當(dāng)進(jìn)行聲調(diào)區(qū)分處理。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué)，未經(jīng)河海大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810059615.X/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】