[發明專利]基于漢語關鍵詞的維吾爾語關鍵詞生成方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110271879.3 | 申請日: | 2021-03-13 |
| 公開(公告)號: | CN113158693A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 楊雅婷;艾孜麥提·艾尼瓦爾;董瑞;馬博;王磊;周喜 | 申請(專利權)人: | 中國科學院新疆理化技術研究所 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/284 |
| 代理公司: | 烏魯木齊中科新興專利事務所(普通合伙) 65106 | 代理人: | 張莉 |
| 地址: | 830011 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 漢語 關鍵詞 維吾爾 生成 方法 裝置 電子設備 存儲 介質 | ||
本發明公開了一種基于漢語關鍵詞的維吾爾語關鍵詞生成方法、裝置、電子設備及存儲介質,涉及信息處理領域,尤其涉及文本過濾、內容監管領域。具體實現方案為:利用漢維雙語將漢語關鍵詞翻譯為維吾爾語關鍵詞;對獲得的維吾爾語關鍵詞進行詞干切分和詞性標注;根據維吾爾語詞干結構特征、詞綴結構特征及維吾爾語語音和諧規則,采用維吾爾語詞干、詞綴變體搭配算法,對維吾爾語關鍵詞詞干進行擴充,獲取以該維吾爾語關鍵詞為詞干的所有可能的維吾爾語關鍵詞。
技術領域
本發明涉及信息處理領域,尤其涉及文本過濾、內容監管領域。具體地,提供一種基于漢語關鍵詞的維吾爾語關鍵詞生成方法、裝置、電子設備及存儲介質。
背景技術
關鍵詞是文檔管理、文本聚類/分類、信息檢索、內容過濾等技術可利用的重要資源。
維吾爾語是典型的黏著語,其構詞規則主要通過在詞干后附加各種詞綴實現,而且理論上一個維吾爾語詞干可以附加無限多個詞綴,產生任意長度的詞匯。為了獲取維吾爾語關鍵詞的所有形態,有必要利用維吾爾語關鍵詞生成算法。
發明內容
本發明目的在于,提供一種基于漢語關鍵詞的維吾爾語關鍵詞生成方法、裝置、電子設備及存儲介質。該方法包括:漢語關鍵詞翻譯為維吾爾語關鍵詞,并進行維吾爾語詞干提取、詞性標注;確定維吾爾語詞干能夠結合的詞綴序列;根據所述詞綴序列,利用維吾爾語詞干、詞綴變體搭配算法確定詞干能夠附加的詞綴變體;該裝置是由漢語關鍵詞翻譯模塊、維吾爾語關鍵詞預處理模塊、維吾爾語關鍵詞詞干選擇詞綴模塊、維吾爾語關鍵詞詞干與詞綴變體搭配模塊和音變處理模塊組成;利用漢維雙語將漢語關鍵詞翻譯為維吾爾語關鍵詞;對獲得的維吾爾語關鍵詞進行詞干切分和詞性標注;根據維吾爾語詞干結構特征、詞綴結構特征及維吾爾語語音和諧規則,采用維吾爾語詞干、詞綴變體搭配算法,對維吾爾語關鍵詞詞干進行擴充,獲取以該維吾爾語關鍵詞為詞干的所有可能的維吾爾語關鍵詞。
本發明所述的一種基于漢語關鍵詞的維吾爾語關鍵詞生成方法,該方法包括:漢語關鍵詞翻譯為維吾爾語關鍵詞,并進行維吾爾語詞干提取、詞性標注;確定維吾爾語詞干能夠結合的詞綴序列;根據所述詞綴序列,利用維吾爾語詞干、詞綴變體搭配算法確定詞干能夠附加的詞綴變體;根據所述詞綴變體,結合維吾爾語音變規則,生成維吾爾語關鍵詞詞干對應的所有形態;具體操作按下列步驟進行:
a、漢語關鍵詞翻譯為維吾爾語關鍵詞:是利用漢維雙語詞典將漢語關鍵詞翻譯為維吾爾語關鍵詞,獲取對應的維吾爾語關鍵詞;
b、維吾爾語詞干提取、詞性標注:是對翻譯后得到的維吾爾語關鍵詞詞匯進行詞干提取和詞性標注,切分為詞干和詞綴,并保留詞干部分,其中詞性標注為標注該詞匯的詞性,如名詞、動詞、形容詞;
c、確定維吾爾語關鍵詞詞干結合的詞綴序列:以維吾爾語構詞規則為依據,收集維吾爾語詞綴、詞綴能夠附加詞干的詞性以及詞綴的所有變體;根據維吾爾語關鍵詞詞干的詞性,獲取能夠和關鍵詞詞干結合的詞綴;
d、維吾爾語詞干、詞綴變體搭配算法:根據維吾爾語詞干結構特征、詞綴結構特征及維吾爾語語音和諧規則,采用維吾爾語詞干、詞綴變體搭配算法,選擇能夠和維吾爾語關鍵詞詞干結合的特定詞綴變體;
e、維吾爾語音變規則:關鍵詞詞干與詞綴變體結合時發生的弱化、通化、脫落、增加音變現象,根據維吾爾語語法,維吾爾語關鍵詞詞干與詞綴變體結合時,對特定類型的詞干或詞綴進行音變處理。
步驟b中所述的詞性標注:是根據維吾爾語詞后綴的結合規則,總結出詞綴組合規則與維吾爾語詞性的對應關系,先使用最大熵統計方法和條件隨機場統計方法對詞性做出一個粗略的判斷,然后利用總結出的規則,對使用統計得到的詞匯標注結果進行驗證。
步驟c中所述的維吾爾語構詞規則的詞綴選擇:是收集維吾爾語所有構形詞綴,根據維吾爾語語法中詞干與詞綴的結合規則,獲得出能夠和特定詞性的維吾爾語詞干結合的所有維吾爾語詞綴列表,并利用統計的方法確定與詞干結合時的前后循序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院新疆理化技術研究所,未經中國科學院新疆理化技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110271879.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑瓷板清洗裝置
- 下一篇:一種真空混合干燥機





