[發(fā)明專利]一種用于術(shù)語管理及抽取的分析方法在審
| 申請?zhí)枺?/td> | 201811297834.8 | 申請日: | 2018-11-01 |
| 公開(公告)號: | CN109508365A | 公開(公告)日: | 2019-03-22 |
| 發(fā)明(設(shè)計(jì))人: | 卡哈爾江·阿比的熱西提;米爾夏提·力提甫;吐爾根·依布拉音;阿里木·庫爾班;王路路;買合木提·買買提;吳浩 | 申請(專利權(quán))人: | 新疆大學(xué) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F17/28;G06F21/60 |
| 代理公司: | 成都佳劃信知識產(chǎn)權(quán)代理有限公司 51266 | 代理人: | 尹志敏 |
| 地址: | 830046 新疆維*** | 國省代碼: | 新疆;65 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 倒排索引 倒排索引文件 術(shù)語管理 加密 抽取 創(chuàng)建 機(jī)器翻譯系統(tǒng) 檢索系統(tǒng) 存儲空間 通用工具 分析 檢查 輸出 | ||
本發(fā)明公開了一種用于術(shù)語管理及抽取的分析方法,該方法包括如下步驟:S1.創(chuàng)建維吾爾語倒排索引;S2.輸出創(chuàng)建好的維吾爾語倒排索引文件;S3.檢查創(chuàng)建的維吾爾語倒排索引文件的準(zhǔn)確性;S4.加密維吾爾語倒排索引;S5.檢查加密的維吾爾語倒排索引;本發(fā)明解決了通用工具以及方法對維吾爾語不有效,甚至導(dǎo)致維吾爾語倒排索引存儲空間的無限擴(kuò)大問題,為實(shí)現(xiàn)維吾爾語檢索系統(tǒng)、基于實(shí)例的維吾爾語機(jī)器翻譯系統(tǒng)打下了良好的基礎(chǔ)。
技術(shù)領(lǐng)域
本本發(fā)明涉及維吾爾語文和中文術(shù)語,其包含雙語大量文本資料的創(chuàng)建、并根據(jù)雙語文本資料進(jìn)行分析,分析當(dāng)中找出所有術(shù)語,同時(shí)建立雙語術(shù)語數(shù)據(jù)庫和統(tǒng)計(jì),屬于自然語言處理中的信息檢索以及機(jī)器翻譯領(lǐng)域。
背景技術(shù)
近年來,隨著少數(shù)民族信息化領(lǐng)域的發(fā)展,在新疆的少數(shù)民族語言信息處理也有了比較大的發(fā)展,特別是維吾爾語信息處理方面詞法分析,維吾爾語句子邊界識別有了較好的研究成果和已實(shí)現(xiàn)的系統(tǒng)。這些技術(shù)為維吾爾語信息檢索,維吾爾語機(jī)器翻譯等領(lǐng)域的實(shí)際系統(tǒng)的實(shí)現(xiàn)打下了堅(jiān)實(shí)的基礎(chǔ)。
倒排索引在信息檢索以及基于實(shí)例的機(jī)器翻譯(Example Based MachineTranslation,EBMT)中起到重要的作用。自從基于實(shí)例的翻譯方法提出以來,找到相似實(shí)例句子已經(jīng)成為該方法的一個(gè)研究重點(diǎn)。維吾爾語漢語基于實(shí)例的機(jī)器翻譯中找維吾爾語相似實(shí)例也是個(gè)難點(diǎn)。維吾爾語屬于阿爾泰語系突厥語族西匈語支,在結(jié)構(gòu)特點(diǎn)上,屬于黏著語。它是通過在詞干上附加各種構(gòu)詞和構(gòu)形詞綴而改變詞匯意義和語法意義的一種語言。這種特點(diǎn)對于維吾爾語倒排索引的創(chuàng)建帶來了一定的困難。這困難主要在于維吾爾語詞干上附加各種構(gòu)詞和構(gòu)型詞綴添加以后的維吾爾語單詞形式各異,重復(fù)率低,不進(jìn)行特殊處理的情況下,倒排索引龐大,無法滿足快速找目的句子的目標(biāo)。到目前為止還沒有出現(xiàn)有關(guān)維吾爾語倒排索引文件生成工具,對其研究也處于試探階段,更沒有出現(xiàn)對倒排索引文件進(jìn)行加密工具,對其研究還沒有開始。
維吾爾語倒排索引的生成工具就是在上述背景下提出的,該工具解決了通用工具以及方法對維吾爾語不有效,甚至導(dǎo)致維吾爾語倒排索引存儲空間的無限擴(kuò)大問題,為實(shí)現(xiàn)維吾爾語檢索系統(tǒng)、基于實(shí)例的維吾爾語機(jī)器翻譯系統(tǒng)打下了良好的基礎(chǔ)。該系統(tǒng)及其方法也可用于維吾爾語文本分類系統(tǒng)、維吾爾語問答系統(tǒng)、維吾爾語搜索引擎等系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的用于術(shù)語管理及抽取的分析方法,包括如下步驟:
S1.創(chuàng)建維吾爾語倒排索引;
S2.輸出創(chuàng)建好的維吾爾語倒排索引文件;
S3.檢查創(chuàng)建的維吾爾語倒排索引文件的準(zhǔn)確性;
S4.加密維吾爾語倒排索引;
S5.檢查加密的維吾爾語倒排索引。
進(jìn)一步,在步驟S1中,創(chuàng)建倒排索引時(shí)對維吾爾語句子的每一個(gè)單詞進(jìn)行詞干提取;
進(jìn)一步,在步驟S4中,對維吾爾語倒排索引文件加密時(shí),先對維吾爾語詞干符合維吾爾語語言特征的字符替換,然后給特定的密鑰進(jìn)行加密;
進(jìn)一步,在步驟S5中,對加密的維吾爾語倒排索引文件進(jìn)行檢查,并輸出檢查結(jié)果供給使用者參考。
本發(fā)明的有益效果是:維吾爾語倒排索引生成工具及其方法不僅考慮了維吾爾語單詞詞頻特征,對不同的單詞給予不同的權(quán)值,且考慮了維吾爾語的黏著性,即對維吾爾語單詞進(jìn)行詞干提取,這樣可以避免倒排索引存儲空間的無限擴(kuò)展因而出現(xiàn)倒排索引無效的問題。而且對倒排索引的詞干條目進(jìn)行符合維吾爾語的語言特點(diǎn)的加密,解決稀缺的維吾爾語語料被非法人員的盜用,并分別對維吾爾語倒排索引文件、加密解密的維吾爾語倒排索引文件進(jìn)行檢查,確保生成的文件的可靠性,為實(shí)現(xiàn)基于實(shí)例的維吾爾語漢語機(jī)器翻譯系統(tǒng)、維吾爾語檢索系統(tǒng)且提高其效率提供了良好的基礎(chǔ);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新疆大學(xué),未經(jīng)新疆大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811297834.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:聊天群的輿情分析方法及裝置
- 下一篇:資料查詢方法及裝置
- 一種異構(gòu)臨床醫(yī)療信息共享系統(tǒng)和方法
- 應(yīng)答生成裝置、對話控制系統(tǒng)以及應(yīng)答生成方法
- 結(jié)構(gòu)化臨床診斷術(shù)語集構(gòu)建方法及其系統(tǒng)
- 嵌入式產(chǎn)品術(shù)語管理的方法及術(shù)語管理數(shù)據(jù)庫
- 一種醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語本體管理系統(tǒng)及方法、設(shè)備和存儲介質(zhì)
- 一種無人機(jī)系統(tǒng)術(shù)語管理方法和系統(tǒng)
- 表單生成方法及裝置、存儲介質(zhì)、電子設(shè)備
- 一種構(gòu)建制造領(lǐng)域術(shù)語庫的方法及系統(tǒng)
- 一種臨床術(shù)語的管理方法及裝置、可讀存儲介質(zhì)
- 推拿專科術(shù)語標(biāo)準(zhǔn)化系統(tǒng)
- 加密裝置、加密系統(tǒng)、加密方法以及加密程序
- 移動終端和方法
- 再加密方法、再加密系統(tǒng)以及再加密裝置
- 加密終端遠(yuǎn)程管理的方法、加密終端及管理器
- 數(shù)據(jù)加密的方法及裝置
- 流媒體數(shù)據(jù)加密、解密方法、裝置、電子設(shè)備及存儲介質(zhì)
- 加密裝置、加密系統(tǒng)和數(shù)據(jù)的加密方法
- 文件加密、解密方法、裝置、設(shè)備和存儲介質(zhì)
- 一種車聯(lián)網(wǎng)數(shù)據(jù)加密方法及系統(tǒng)
- 一種服務(wù)數(shù)據(jù)共享云平臺的數(shù)據(jù)加密方法及系統(tǒng)





