[發(fā)明專利]維吾爾語詞干提取方法無效
| 申請?zhí)枺?/td> | 201210579424.9 | 申請日: | 2012-12-28 |
| 公開(公告)號: | CN103902522A | 公開(公告)日: | 2014-07-02 |
| 發(fā)明(設(shè)計)人: | 尼加提·納吉米;買合木提·買買提;帕肉克·司地克;馬斌 | 申請(專利權(quán))人: | 新疆電力信息通信有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 烏魯木齊新科聯(lián)知識產(chǎn)權(quán)代理有限公司 65107 | 代理人: | 祁磊 |
| 地址: | 830011 新疆維吾*** | 國省代碼: | 新疆;65 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 維吾爾 語詞 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語言信息處理技術(shù),特別是維吾爾語詞干提取方法。
背景技術(shù)
在國民經(jīng)濟和社會信息化的今天,人們對各類語種信息獲取、查詢、翻譯提出了更快、更高的要求。隨之,研制開發(fā)了各類電子詞典產(chǎn)品和機器翻譯系統(tǒng),受到廣大用戶歡迎。在進行機器翻譯或處理用戶提供的搜索關(guān)鍵詞時,被提交的單詞很可能已具有了形態(tài)變化。這時系統(tǒng)必須要采用某種方法對提交的單詞進行形態(tài)還原并取回相關(guān)信息,詞干提取系統(tǒng)是機器翻譯和構(gòu)建電子詞典的輔助工具。
機器翻譯系統(tǒng)和自然語言處理系統(tǒng)的實用化進程中,機器詞典和機器翻譯系統(tǒng)已成為開發(fā)的焦點,很多IR系統(tǒng)和電子詞典,機器翻譯系統(tǒng)開發(fā)商和研究機構(gòu)為了提高系統(tǒng)召回率,著手研究與開發(fā)了形態(tài)還原和派生形態(tài)系統(tǒng)。在研究和開發(fā)這些形態(tài)分析系統(tǒng)過程中,很多研究者提出了不同的方法,其中有Porter算法,詞典查詢,有限狀態(tài)轉(zhuǎn)錄機(Finite?State?Transducer,FST),有限狀態(tài)自動機(Finite?State?Machine,?FSM),基于隱馬爾科夫模型(Hidden?Markov?Model,?HMM)的方法等。Porter算法是最常見的,也是最早提出的算法,特點在于簡單和易于實現(xiàn),但是召回率并不高。詞典查詢方法也是常見的方法之一,非常簡單,效率和召回率與詞庫有關(guān),但不能處理未登錄詞。雖然FST比詞典查詢方法速度快,但需要大量的人工工作,需要建設(shè)形態(tài)詞表,但仍然不能處理未登錄詞。基于HMM的方法與詞庫的關(guān)系并密切,但是還沒有成熟,性能略高于Porter算法。
近年來,隨著少數(shù)民族信息化領(lǐng)域的發(fā)展,在新疆的少數(shù)民族語言的詞干提取系統(tǒng)也有了新的發(fā)展,但大多數(shù)以維吾爾語為主,在更多少數(shù)民族語言的支持和技術(shù)水平上存在一定的缺陷。
維吾爾語詞干提取就是在上述背景下提出的,該系統(tǒng)解決了對提交的單詞進行形態(tài)還原并取回相關(guān)信息;是維吾爾語電子詞典的構(gòu)建,漢維機器翻譯系統(tǒng)很好的輔助工具;另一方面對將來漢維機器翻譯詞典庫建設(shè);對烏(烏孜別克文)、哈(哈薩克)、柯(柯爾克孜)、土(土耳其文)電子詞典及輔助機器翻譯系統(tǒng)的開發(fā)打下了堅實的基礎(chǔ)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種維吾爾語詞干提取方法,系統(tǒng)實現(xiàn)維吾爾語靜詞和動詞的詞干提取,為維吾爾語電子詞典的構(gòu)建提供了幫助;為漢維機器翻譯系統(tǒng)的研究提供了基礎(chǔ),對烏(烏孜別克文)、哈(哈薩克)、柯(柯爾克孜)、土(土耳其文)電子詞典及輔助機器翻譯系統(tǒng)的開發(fā)打下了堅實的基礎(chǔ)。
本發(fā)明的目的是這樣實現(xiàn)的:一種維吾爾語詞干提取方法,1.?構(gòu)造名詞構(gòu)形詞綴優(yōu)先自動機,確定所有構(gòu)形名詞詞綴和它們間的連接規(guī)則,然后構(gòu)造從左向右的維吾爾語名詞構(gòu)形詞綴切分有限自動機;2.?構(gòu)造形容詞有限狀態(tài)自動機,和名詞構(gòu)建過程一樣構(gòu)造形容詞的有限狀態(tài)自動機,形容詞不但可以接受名詞的詞綴還可以接受自己的詞綴,形容詞的FSM比名詞復雜,最終構(gòu)造的確定自動機的狀態(tài)也較多;3.?構(gòu)造數(shù)詞有限狀態(tài)自動機,數(shù)詞在句中以各種形態(tài)變化的形式出現(xiàn),充當各種句子成分,數(shù)詞只能附加構(gòu)形詞綴,不能附加構(gòu)詞詞綴,一般維吾爾語數(shù)詞不僅可以附加名詞的構(gòu)形詞綴,有自己的詞綴,實現(xiàn)數(shù)詞有限狀態(tài)自動機;4.使用統(tǒng)計學和語音學實現(xiàn)維文單詞和文本的朗讀功能,語音朗讀標準、清晰具有較先進的技術(shù)特色;5.?動詞本身是一個復雜的系統(tǒng),不能建立統(tǒng)一的框架進行處理,所以對動詞的詞干、人稱形式、非人稱形式等構(gòu)建范疇級別的相互連接或出現(xiàn)規(guī)則框架,針對每一個范疇根據(jù)范疇的形態(tài)變化規(guī)律分別使用簡單的線性規(guī)則或FSM,對助動詞、系動詞等根據(jù)內(nèi)部分類把形態(tài)有較多變化的與動詞一樣處理,對形態(tài)變化也十分有限的部分系動詞和助動詞的采用詞典的方法進行處理。
本發(fā)明涉及維吾爾語靜詞和動詞的詞干提取,其中靜詞包括名詞、形容詞、數(shù)詞、量詞、代詞和副詞。形態(tài)分析是自然語言處理領(lǐng)域中的基本問題之一,也是長期以來一直在研究的課題。詞干提取在英語,阿拉伯語,土耳其語,維吾爾語等黏著語言中與中文分詞一樣很重要。在目前市場上,這種能對維吾爾語靜詞和動詞進行詞干提取功能的詞干提取系統(tǒng)尚屬首例。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新疆電力信息通信有限責任公司,未經(jīng)新疆電力信息通信有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210579424.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





