[發(fā)明專利]藏漢翻譯系統(tǒng)的多策略藏語長句切分方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410458322.0 | 申請(qǐng)日: | 2014-09-10 |
| 公開(公告)號(hào): | CN104239294B | 公開(公告)日: | 2017-06-06 |
| 發(fā)明(設(shè)計(jì))人: | 黃河燕;黃靜 | 申請(qǐng)(專利權(quán))人: | 華建宇通科技(北京)有限責(zé)任公司;北京理工大學(xué) |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 北京北新智誠知識(shí)產(chǎn)權(quán)代理有限公司11100 | 代理人: | 滿靖 |
| 地址: | 100083 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 翻譯 系統(tǒng) 策略 藏語 長句 切分 方法 | ||
1.一種藏漢翻譯系統(tǒng)的多策略藏語長句切分方法,其特征在于,它包括如下步驟:
1)接收由轉(zhuǎn)寫系統(tǒng)轉(zhuǎn)換的藏語長句,設(shè)當(dāng)前長句由若干成分構(gòu)成,令指針指向第一個(gè)成分,成分為一單詞或一數(shù)字或一逗號(hào)或一特殊符號(hào);
2)判斷指針是否指向空:若是,將當(dāng)前剩余成分作為切分子句送出,結(jié)束;否則,讀取指針指向的成分;
3)判斷該成分是否為數(shù)字或特殊符號(hào):若不是,繼續(xù)4);否則,指針指向下一成分,返回2);
4)判斷該成分是否為逗號(hào):若不是,繼續(xù)5);否則,取出逗號(hào)切分實(shí)例的源文模式和模式條件:若源文模式匹配成功且模式條件滿足,記錄切分點(diǎn),將切分點(diǎn)之前的所有成分作為切分子句送出,指針指向切分點(diǎn)之后的第一個(gè)成分,返回2);否則,指針指向下一成分,返回2);
5)在特征詞索引表中檢索該成分:若檢索到,繼續(xù)6);否則,指針指向下一成分,返回2);
6)在特征詞切分實(shí)例表中逐一取出該成分對(duì)應(yīng)的各特征詞切分實(shí)例:若找到源文模式匹配成功且模式條件滿足的特征詞切分實(shí)例,記錄切分點(diǎn),將切分點(diǎn)之前的所有成分作為切分子句送出,指針指向切分點(diǎn)之后的第一個(gè)成分,返回2);否則,指針指向下一成分,返回2);
其中:
逗號(hào)切分規(guī)則實(shí)例庫用于存儲(chǔ)逗號(hào)切分實(shí)例,逗號(hào)切分實(shí)例包括一源文模式和一模式條件;
特征詞切分規(guī)則實(shí)例庫用于存儲(chǔ)特征詞索引表、特征詞切分實(shí)例表,特征詞索引表用于存儲(chǔ)特征詞,特征詞切分實(shí)例表用于存儲(chǔ)特征詞切分實(shí)例,每一特征詞對(duì)應(yīng)有至少一特征詞切分實(shí)例,每一特征詞切分實(shí)例包括一源文模式和一模式條件。
2.如權(quán)利要求1所述的多策略藏語長句切分方法,其特征在于:
所述特征詞切分規(guī)則實(shí)例庫還存儲(chǔ)有首字母索引,首字母索引用于存儲(chǔ)26個(gè)拉丁字母,每一拉丁字母與所述特征詞索引表中以該拉丁字母作為首字母的特征詞相對(duì)應(yīng)。
3.如權(quán)利要求1或2所述的多策略藏語長句切分方法,其特征在于:
所述特征詞是自身附近成分可能作為切分點(diǎn)的單詞;
所述逗號(hào)切分實(shí)例的所述源文模式是含有逗號(hào)和切分位置的成分表達(dá)式,用于說明逗號(hào)在源文句子中作為切分點(diǎn)時(shí)應(yīng)該滿足的源文特征條件,以及示出切分位置;
所述特征詞切分實(shí)例的所述源文模式是含有特征詞和切分位置的成分表達(dá)式,用于說明特征詞在源文句子中作為切分點(diǎn)時(shí)應(yīng)該滿足的源文特征條件,以及示出切分位置;
對(duì)于所述逗號(hào)切分實(shí)例和所述特征詞切分實(shí)例,所述模式條件是含有多個(gè)上下文語境條件判斷式的集成表達(dá)式,用于說明該模式條件對(duì)應(yīng)的源文模式使用時(shí)應(yīng)該滿足的各上下文語境條件。
4.如權(quán)利要求3所述的多策略藏語長句切分方法,其特征在于:
檢查當(dāng)前成分是否滿足逗號(hào)切分實(shí)例中的模式條件以及檢查當(dāng)前成分是否滿足特征詞切分實(shí)例中的模式條件,是基于藏文字典庫進(jìn)行的;
藏文字典庫的單詞文本文件中的每個(gè)單詞有如下內(nèi)容:
·單詞
·單詞的語法分類和語義屬性
·上下文區(qū)分函數(shù)
·單詞的中文解釋
·單詞的詞組
并且,藏文字典庫建立首字母索引和單詞索引文件來查找單詞文本文件中的單詞。
5.如權(quán)利要求4所述的多策略藏語長句切分方法,其特征在于:
所述上下文語境條件包括對(duì)切分點(diǎn)前和/或后指定長度范圍內(nèi)的成分判斷、對(duì)切分點(diǎn)前和/或后指定長度范圍內(nèi)的單詞所屬語法分類和/或語義屬性的判斷。
6.如權(quán)利要求4所述的多策略藏語長句切分方法,其特征在于:
訪問所述藏文字典庫的步驟為:
1)基于單詞的首字母,通過所述首字母索引找到對(duì)應(yīng)的所述單詞索引文件;
2)在所述單詞索引文件中基于二分算法查找該單詞;
3)若沒找到,則失敗返回,否則繼續(xù)4);
4)讀出該單詞的字節(jié)數(shù),根據(jù)該單詞的字節(jié)數(shù)在所述單詞文本文件中讀出該單詞的信息;
5)結(jié)束。
7.如權(quán)利要求1所述的多策略藏語長句切分方法,其特征在于:
在送出切分子句時(shí),當(dāng)判斷切分子句的成分個(gè)數(shù)超過閾值個(gè)數(shù)時(shí),提醒用戶注意是否特征詞切分規(guī)則實(shí)例庫不完善,需要收入新的特征詞切分實(shí)例來完善。
8.如權(quán)利要求1所述的多策略藏語長句切分方法,其特征在于:
所述當(dāng)前長句中的成分個(gè)數(shù)大于15。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華建宇通科技(北京)有限責(zé)任公司;北京理工大學(xué),未經(jīng)華建宇通科技(北京)有限責(zé)任公司;北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410458322.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





