[發(fā)明專利]基于音節(jié)嵌入的藏漢人名音譯方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810059615.X | 申請(qǐng)日: | 2018-01-22 |
| 公開(公告)號(hào): | CN108197122B | 公開(公告)日: | 2018-11-23 |
| 發(fā)明(設(shè)計(jì))人: | 夏建華;張進(jìn)兵;韓立新 | 申請(qǐng)(專利權(quán))人: | 河海大學(xué) |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音節(jié) 嵌入 嵌入的 漢語 平行語料庫 相似度量 序列生成 音譯系統(tǒng) 成分袋 候選項(xiàng) 語料 平行 語音 多樣性 | ||
本發(fā)明公開一種基于音節(jié)嵌入的藏漢人名音譯方法,利用藏語音節(jié)和漢語音節(jié)來訓(xùn)練音節(jié)成分袋BOC模型,分別得到藏語音節(jié)嵌入和漢語音節(jié)嵌入表示;根據(jù)音節(jié)的嵌入表示來實(shí)現(xiàn)從藏語人名到漢語人名的音譯序列生成。本發(fā)明摒棄了傳統(tǒng)音譯過程中借助語音作為平行語料之間的相似度量,利用BOC模型得到的音節(jié)嵌入能夠克服平行語料庫規(guī)模小而導(dǎo)致某些字詞缺失對(duì)音譯系統(tǒng)的影響。本發(fā)明克服了傳統(tǒng)方法對(duì)于缺失字詞的音譯的局限性,提高了音譯結(jié)果中字詞的多樣性和擴(kuò)展了可候選項(xiàng),得到更好的音譯結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及文字處理技術(shù)領(lǐng)域,尤其涉及一種基于音節(jié)嵌入的藏漢人名音譯方法。
背景技術(shù)
把一種語言的文字序列轉(zhuǎn)換成另一種語言對(duì)應(yīng)的意義相同文字序列,是翻譯的基本過程。這也是從事藏文古文獻(xiàn)資料漢化工作者的基本任務(wù),在這個(gè)活動(dòng)過程中,翻譯專家在翻譯一些人名、地名等專有名詞時(shí),則不采用意譯,而采用音譯,也就是根據(jù)藏文人名、地名的字符發(fā)音轉(zhuǎn)換成漢文中對(duì)應(yīng)的發(fā)音相同或相似的字構(gòu)成的人名、地名。然而,在人工翻譯過程中,受人為翻譯的因素影響,出現(xiàn)了許多藏漢音譯的不規(guī)范形式,例如:1)漢語方言的差異導(dǎo)致漢語音譯的差異:如不同的翻譯人可以將地名音譯為“僧達(dá)阿冬”、“申達(dá)阿洞”、“孫達(dá)阿東”等;2)藏語方言(藏語有三大方言:衛(wèi)藏、康巴、安多)的差異性導(dǎo)致漢語音譯的不同:比如地名曾被音譯為“強(qiáng)巴”、“祥巴”、“向巴”等幾種譯法;3)由于藏文書面語與口語的語音偏差造成音譯漢語語句的不同等。
計(jì)算機(jī)技術(shù)的發(fā)展,以及其與語言信息處理技術(shù)的結(jié)合所形成的機(jī)器音譯,克服了前面討論的人工音譯的缺陷,比如,采用藏語官方版的拉薩藏語發(fā)音制作藏漢平行語料,那么在使用音譯機(jī)器音譯時(shí),則不會(huì)出現(xiàn)康巴、安多兩種方言對(duì)音譯結(jié)果的干擾。目前存在的機(jī)器音譯方法有許多,主要如下:
基于規(guī)則的方法,包括基于字形和基于語音的音譯,前者通過字形匹配,后者采用平行語音語料匹配,解決了約定俗成的音譯,如只可譯為文成公主;
基于統(tǒng)計(jì)的方法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,當(dāng)某些約定俗成的音譯出現(xiàn)兩種和兩種以上的譯法,則可以依據(jù)統(tǒng)計(jì)權(quán)重來選擇。
但是,以上這些方法都受限于人工標(biāo)注語料的數(shù)據(jù)量有限和涉及領(lǐng)域少,比如,我們需要將地名:和人名:分別音譯成漢文,但是平行語料中沒有此詞條,則可能導(dǎo)致基于規(guī)則和統(tǒng)計(jì)的方法也不能找到發(fā)音相似的音譯:“僧達(dá)阿冬”、“森達(dá)頓木”、“申達(dá)阿洞”、“孫達(dá)阿東”和“索羅西”、“索洛溪”等,也就是以上這些方法在遇到了未在平行語料中出現(xiàn)的詞條,就不能生成相應(yīng)的音譯漢文序列,這也是這些方法目前存在的不足和局限性。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于音節(jié)嵌入的藏漢人名音譯方法,克服了傳統(tǒng)方法在音譯結(jié)果中同音字可候選的局限性,提高了音譯結(jié)果中字詞的多樣性和可選擇性。
為達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案是:基于音節(jié)嵌入的藏漢人名音譯方法,該方法包括如下步驟:
對(duì)藏文、漢文分別進(jìn)行音節(jié)化,得到藏文音節(jié)和漢文音節(jié),利用藏文音節(jié)和漢文音節(jié)訓(xùn)練音節(jié)成分袋BOC模型,分別得到藏文音節(jié)嵌入表示和漢文音節(jié)嵌入表示;根據(jù)音節(jié)嵌入表示、利用最大熵音譯模型實(shí)現(xiàn)從藏文人名到漢文人名的音譯。
進(jìn)一步的,音節(jié)化的具體方法如下:
將平行語料和非平行語料中的藏文和漢文分別進(jìn)行音節(jié)化,包括音節(jié)劃分和音節(jié)拆分;
藏文的音節(jié)化處理是指先將藏文語料按按音節(jié)劃分,再進(jìn)行音節(jié)的成分化處理;
漢文的音節(jié)化處理是先將漢字進(jìn)行拼音化,再按音節(jié)劃分和成分化處理為:聲母、第一韻母、第二韻母和聲調(diào);
針對(duì)每個(gè)音節(jié)構(gòu)建一個(gè)兩層多叉樹:根節(jié)點(diǎn)為音節(jié),葉子節(jié)點(diǎn)為相同發(fā)音的漢字。
進(jìn)一步的,漢字拼音化過程中,相同拼音但不同聲調(diào)應(yīng)當(dāng)進(jìn)行聲調(diào)區(qū)分處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810059615.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





