[發(fā)明專利]藏漢翻譯系統(tǒng)的多策略藏語長句切分方法有效
| 申請?zhí)枺?/td> | 201410458322.0 | 申請日: | 2014-09-10 |
| 公開(公告)號: | CN104239294B | 公開(公告)日: | 2017-06-06 |
| 發(fā)明(設計)人: | 黃河燕;黃靜 | 申請(專利權)人: | 華建宇通科技(北京)有限責任公司;北京理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京北新智誠知識產權代理有限公司11100 | 代理人: | 滿靖 |
| 地址: | 100083 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 系統(tǒng) 策略 藏語 長句 切分 方法 | ||
技術領域
本發(fā)明涉及一種用于藏漢翻譯系統(tǒng)的、基于多策略對藏語長句進行切分的方法,屬于基于計算機科學的語言處理與分析領域。
背景技術
藏文是一門古老而獨特的語言,它具有獨特的標點符號體系,不同于其他文字的標點符號。藏語的標點符號數量是很有限的,只有7種——音節(jié)點、單垂符、雙垂符、四垂符、蛇形垂符、聚寶垂符、云頭符,見下表1所示。
表1
在表1中,“音節(jié)點”是劃開音節(jié),使藏文字之間的界線不混淆的一種符號。“單垂符”是表示詞語或句子之間的并列、停頓或結束的符號,相當于漢語標點符號中的頓號、逗號、分號或句號。藏語無專門的問號和感嘆號,一個句子的語調全靠文字表達。表1中的其它五種標點符號用得不太多,一般用來標明藏語句首、段首、章結尾等。
藏語標點符號具有特殊性和復雜性,最常用的是“單垂符”,其主要用于句末,也用于詞或者短語之后,功能上相當于漢語標點符號中的頓號、逗號、分號、句號。一方面,有些“單垂符”表示的是頓號、逗號的作用,不能簡單作為分句的標志,另一方面,藏文句子中的“單垂符”可以省略,所以藏語中長句情況很普遍,有些句子最長可達到百來個詞時才出現(xiàn)一個“單垂符”。
下面列舉一個例子(在該例子中,鑒于清晰表達,各藏文字由轉寫系統(tǒng)轉換為若干拉丁字母、數字或特殊符號表示,各藏語標點符號由轉寫系統(tǒng)轉換為相應漢語標點符號表示、做相應省略或回車處理,其中,例如“音節(jié)點”以空格表示,“單垂符”以逗號表示):
las zhugs bod skyor thad don dngos bsgrubs pa dang bod kyi mtho slob slob thon slob ma nang sar las ka byed par bskyod rgyuvi khrid ston hur thag byas nas bod skyor zhing chen dang grong khyer dang krung dbyang gi rkang vdzin khe las la mthun sbyor gyis lo ltar skye khungs bod nas yin pavi mtho slob slob thon slob ma 100yi las zhugs bkod sgrig bya rgyu bcas byed dgos,
上面例子中只在句末有一個“單垂符”,僅出現(xiàn)了“音節(jié)點”和“單垂符”,其漢語意思應為:“在援藏就業(yè)方面完成的實事,對西藏高校畢業(yè)生去內地工作努力進行指導,援藏省份和城市及中央骨干企業(yè)協(xié)同對100個西藏生源的高校畢業(yè)生做就業(yè)安排,”。
由此可見,面對藏語中的眾多長句,如何提高藏漢翻譯的處理速度以及確保翻譯的正確性是翻譯系統(tǒng)需要考慮的問題。而現(xiàn)如今已有的大多藏漢翻譯系統(tǒng)都或多或少的存在著翻譯速度慢或翻譯正確率低的缺陷。
因此,鑒于藏語標點符號的特殊性和復雜性以及藏語長句存在的普遍性,設計出一種可快速、準確對藏語長句進行有效切分的技術方案,是目前急需解決的問題。
發(fā)明內容
本發(fā)明的目的在于提供一種對復雜的藏語長句進行快速、準確切分的多策略藏語長句切分方法,該方法可用于藏漢翻譯系統(tǒng)中,以提高藏漢翻譯處理的速度和正確性。
為了實現(xiàn)上述目的,本發(fā)明采用了以下技術方案:
一種藏漢翻譯系統(tǒng)的多策略藏語長句切分方法,其特征在于,它包括如下步驟:
1)接收由轉寫系統(tǒng)轉換的藏語長句,設當前長句由若干成分構成,令指針指向第一個成分,成分為一單詞或一數字或一逗號或一特殊符號,當前長句中的成分個數大于15;
2)判斷指針是否指向空:若是,將當前剩余成分作為切分子句送出,結束;否則,讀取指針指向的成分;
3)判斷該成分是否為數字或特殊符號:若不是,繼續(xù)4);否則,指針指向下一成分,返回2);
4)判斷該成分是否為逗號:若不是,繼續(xù)5);否則,取出逗號切分實例的源文模式和模式條件:若源文模式匹配成功且模式條件滿足,記錄切分點,將切分點之前的所有成分作為切分子句送出,指針指向切分點之后的第一個成分,返回2);否則,指針指向下一成分,返回2);
5)在特征詞索引表中檢索該成分:若檢索到,繼續(xù)6);否則,指針指向下一成分,返回2);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華建宇通科技(北京)有限責任公司;北京理工大學,未經華建宇通科技(北京)有限責任公司;北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410458322.0/2.html,轉載請聲明來源鉆瓜專利網。





