[發明專利]一種融合聚類算法的維漢機器翻譯系統在審
| 申請號: | 202010140937.4 | 申請日: | 2020-03-03 |
| 公開(公告)號: | CN111368563A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 艾山·吾買爾;劉文其;斯拉吉艾合麥提·如則麥麥提;西熱艾力·海熱拉;早克熱·卡德爾;買合木提·買買提;汪烈軍;劉勝全 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F16/35;G06K9/62;G06F40/284;G06F40/289 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 張麗 |
| 地址: | 830046 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 算法 機器翻譯 系統 | ||
1.一種融合聚類算法的維漢機器翻譯系統,由使用gensim中的Doc2vec訓練維吾爾語句子向量模型;使用k-means方法實現維吾爾語的文本聚類;使用transformer結構訓練維漢機器翻譯模型;使用微調的方法將聚類后的每一類數據分別微調機器翻譯模型得到k個子翻譯模型,融合以上方法實現了對維吾爾語的向量化,聚類并訓練維漢翻譯模型,其特征在于:由于長度較短的句子很難有豐富的語義信息,在進行句子向量化時,短句子會影響句子向量模型的質量進而導致聚類效果不佳,因此在訓練句子向量之前先把長度小于10的句子過濾掉,只保留較長的句子。
2.根據權利要求1所述的一種融合聚類算法的維漢機器翻譯系統,其特征在于:所述基于transformer的維漢機器翻譯模型,維語端先對維語句子進行token,在使用雙字節編碼(Byte Pair Encoding,BPE)操作;漢語端先使用THULAC分詞工具對中文句子進行分詞,在使用BPE切詞的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010140937.4/1.html,轉載請聲明來源鉆瓜專利網。





