[發(fā)明專利]一種維-漢文可比語(yǔ)料自動(dòng)獲取方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711342028.3 | 申請(qǐng)日: | 2017-12-14 |
| 公開(kāi)(公告)號(hào): | CN108153835A | 公開(kāi)(公告)日: | 2018-06-12 |
| 發(fā)明(設(shè)計(jì))人: | 米爾夏提·力提甫;吐?tīng)柛ひ啦祭?/a>;卡哈爾江·阿布都熱西提;艾山·吾買爾;買合木提·買買提;瓦熱斯·帕爾哈提;王路路;古麗尼格爾·阿不都外力 | 申請(qǐng)(專利權(quán))人: | 新疆大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06K9/62 |
| 代理公司: | 北京彭麗芳知識(shí)產(chǎn)權(quán)代理有限公司 11407 | 代理人: | 彭麗芳 |
| 地址: | 830046 新疆維*** | 國(guó)省代碼: | 新疆;65 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)料 自動(dòng)獲取 分類器 待檢測(cè)文本 離線訓(xùn)練 擴(kuò)展性 覆蓋面 實(shí)時(shí)性 準(zhǔn)確率 表現(xiàn) | ||
本發(fā)明公開(kāi)了一種維?漢文可比語(yǔ)料自動(dòng)獲取方法,包括如下步驟:獲取多個(gè)維?漢文可比語(yǔ)料,采用Adaboost方法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練,得到一個(gè)分類器;通過(guò)分類器完成待檢測(cè)文本內(nèi)維?漢文可比語(yǔ)料的獲取。本發(fā)明實(shí)現(xiàn)了維?漢文可比語(yǔ)料的自動(dòng)獲取,在語(yǔ)料覆蓋面,實(shí)時(shí)性和擴(kuò)展性方面都有較好的表現(xiàn),且準(zhǔn)確率較高。
技術(shù)領(lǐng)域
本發(fā)明涉及智能信息處理領(lǐng)域,具體涉及一種維-漢文可比語(yǔ)料自動(dòng)獲取方法。
背景技術(shù)
近幾年來(lái),隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,越來(lái)越多的學(xué)者參與到了機(jī)器翻譯的研究工作中。新疆地處亞歐大陸腹地,作為絲綢之路經(jīng)濟(jì)帶核心區(qū),在經(jīng)濟(jì)發(fā)展中扮演著重要的樞紐角色。新疆維吾爾自治區(qū)是多名族聚居的地區(qū),發(fā)展名族語(yǔ)言機(jī)器翻譯技術(shù)對(duì)新疆的互聯(lián)網(wǎng)發(fā)展具有很大的助推作用。其中語(yǔ)料庫(kù)作為基礎(chǔ)資源,在機(jī)器翻譯,跨語(yǔ)言信息檢索,搜索引擎等領(lǐng)域發(fā)揮著重要作用。但是,由于雙語(yǔ)平行語(yǔ)料本身就相對(duì)稀缺且不易獲取,導(dǎo)致少數(shù)名族語(yǔ)言在語(yǔ)料庫(kù)方面發(fā)展緩慢。可比語(yǔ)料庫(kù)的提出,在一定程度上可以幫助語(yǔ)料庫(kù)擴(kuò)建,大大增加了獲取非平衡雙語(yǔ)語(yǔ)料的速度。同時(shí),可比語(yǔ)料庫(kù)對(duì)挖掘等價(jià)翻譯句對(duì),如未登錄詞的翻譯,專業(yè)科技術(shù)語(yǔ)互譯對(duì)抽取等研究也有很大幫助。因此,可比語(yǔ)料庫(kù)的構(gòu)建可以很好的幫助平行語(yǔ)料庫(kù)進(jìn)行擴(kuò)展,為平行語(yǔ)料庫(kù)的構(gòu)建打下基礎(chǔ)。
國(guó)內(nèi)外先有的可比語(yǔ)料庫(kù)中,大多是對(duì)文本提取特種值,對(duì)特征值進(jìn)行計(jì)算相似比,但是單純使用這種方法篩選出來(lái)的可比語(yǔ)料在精準(zhǔn)度和篩選效率方面都不高。
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明提供了一種維-漢文可比語(yǔ)料自動(dòng)獲取方法,實(shí)現(xiàn)了維-漢文可比語(yǔ)料的自動(dòng)獲取,且準(zhǔn)確率較高。
為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
一種維-漢文可比語(yǔ)料自動(dòng)獲取方法,包括如下步驟:
獲取多個(gè)維-漢文可比語(yǔ)料,采用Adaboost方法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練,得到一個(gè)分類器;
通過(guò)分類器完成待檢測(cè)文本內(nèi)維-漢文可比語(yǔ)料的獲取。
優(yōu)選地,所述分類器通過(guò)以下步驟獲取::
S1、通過(guò)BP算法對(duì)所獲取的多個(gè)維-漢文可比語(yǔ)料進(jìn)行一次訓(xùn)練,生成學(xué)習(xí)器;
S2、采用Adaboost方法對(duì)所得學(xué)習(xí)器進(jìn)行3次迭代,分別得到弱學(xué)習(xí)器l1(x)、l2(x)、l3(x),然后進(jìn)行加權(quán)輸出一個(gè)用于維-漢文可比語(yǔ)料預(yù)測(cè)的分類器。
優(yōu)選地,所述多個(gè)維-漢文可比語(yǔ)料為人工獲取所得。
優(yōu)選地,所述Adaboost方法具體包括如下步驟:
(1)給定一個(gè)訓(xùn)練算法和訓(xùn)練集;
(2)初始化訓(xùn)練集中各個(gè)訓(xùn)練樣本的分布,將初始時(shí)的樣本分布設(shè)為均勻分布;
(3)根據(jù)訓(xùn)練樣本的概率分布采集訓(xùn)練樣本,得到一個(gè)弱學(xué)習(xí)器lt(x),其中,t為當(dāng)前迭代次數(shù);
(4)計(jì)算在當(dāng)前得到的學(xué)習(xí)器下各訓(xùn)練樣本的誤差以及誤差的平均值;
(5)計(jì)算當(dāng)前學(xué)習(xí)器的權(quán)重;;
(6)調(diào)整下次迭代時(shí)的樣本分布,對(duì)樣本分布進(jìn)行歸一化處理,確保各樣本的采樣概率和為1;
(7)重復(fù)步驟(3)-(6),直至迭代次數(shù)為T為止;
(8)將T個(gè)弱學(xué)習(xí)器的權(quán)重歸一化之后加權(quán)結(jié)合,得到最終的分類器。
優(yōu)選地,包括如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新疆大學(xué),未經(jīng)新疆大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711342028.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種語(yǔ)料提取器及提取語(yǔ)料的方法
- 軍事信息語(yǔ)料庫(kù)構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語(yǔ)料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語(yǔ)料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語(yǔ)料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語(yǔ)料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語(yǔ)料生成方法、語(yǔ)料生成裝置、和存儲(chǔ)介質(zhì)
- 短語(yǔ)語(yǔ)料獲取方法及短語(yǔ)語(yǔ)料獲取裝置
- 一種語(yǔ)料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 銀行數(shù)據(jù)自動(dòng)獲取系統(tǒng)
- 自動(dòng)閾值獲取方法及具有自動(dòng)閾值獲取功能的色譜工作站
- 電梯樓層自動(dòng)獲取系統(tǒng)
- 自動(dòng)獲取最優(yōu)輸出數(shù)據(jù)
- 自動(dòng)獲取激光焦點(diǎn)的方法
- 自動(dòng)獲取治療紀(jì)錄的系統(tǒng)
- 自動(dòng)獲取數(shù)據(jù)的系統(tǒng)
- 自動(dòng)獲取內(nèi)容的電子設(shè)備及自動(dòng)獲取內(nèi)容的方法
- 樓層信息的自動(dòng)獲取
- 機(jī)場(chǎng)自動(dòng)倉(cāng)單獲取機(jī)
- 一種文本要點(diǎn)檢測(cè)方法及系統(tǒng)
- 信息推送方法和裝置
- 文本要點(diǎn)檢測(cè)方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及評(píng)估方法
- 文本的處理方法、裝置和存儲(chǔ)介質(zhì)
- 文本檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種惡意文本的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本檢測(cè)方法、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 文本通順度檢測(cè)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種文本分類方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種識(shí)別文本內(nèi)容的方法及裝置





