[發(fā)明專利]一種維-漢文可比語料自動獲取方法在審
| 申請?zhí)枺?/td> | 201711342028.3 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN108153835A | 公開(公告)日: | 2018-06-12 |
| 發(fā)明(設(shè)計)人: | 米爾夏提·力提甫;吐爾根·依布拉音;卡哈爾江·阿布都熱西提;艾山·吾買爾;買合木提·買買提;瓦熱斯·帕爾哈提;王路路;古麗尼格爾·阿不都外力 | 申請(專利權(quán))人: | 新疆大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京彭麗芳知識產(chǎn)權(quán)代理有限公司 11407 | 代理人: | 彭麗芳 |
| 地址: | 830046 新疆維*** | 國省代碼: | 新疆;65 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語料 自動獲取 分類器 待檢測文本 離線訓(xùn)練 擴(kuò)展性 覆蓋面 實時性 準(zhǔn)確率 表現(xiàn) | ||
1.一種維-漢文可比語料自動獲取方法,其特征在于,包括如下步驟:
獲取多個維-漢文可比語料,采用Adaboost方法對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行離線訓(xùn)練,得到一個分類器;
通過分類器完成待檢測文本內(nèi)維-漢文可比語料的獲取。
2.如權(quán)利要求1所述的一種維-漢文可比語料自動獲取方法,其特征在于,所述分類器通過以下步驟獲取:
S1、通過BP算法對所獲取的多個維-漢文可比語料進(jìn)行一次訓(xùn)練,生成學(xué)習(xí)器;
S2、采用Adaboost方法對所得學(xué)習(xí)器進(jìn)行3次迭代,分別得到弱學(xué)習(xí)器l1(x)、l2(x)、l3(x),然后進(jìn)行加權(quán)輸出一個用于維-漢文可比語料預(yù)測的分類器。
3.如權(quán)利要求1所述的一種維-漢文可比語料自動獲取方法,其特征在于,所述多個維-漢文可比語料為人工獲取所得。
4.如權(quán)利要求1所述的一種維-漢文可比語料自動獲取方法,其特征在于,所述Adaboost方法具體包括如下步驟:
(1)給定一個訓(xùn)練算法和訓(xùn)練集;
(2)初始化訓(xùn)練集中各個訓(xùn)練樣本的分布,將初始時的樣本分布設(shè)為均勻分布;
(3)根據(jù)訓(xùn)練樣本的概率分布采集訓(xùn)練樣本,得到一個弱學(xué)習(xí)器lt(x),其中,t為當(dāng)前迭代次數(shù);
(4)計算在當(dāng)前得到的學(xué)習(xí)器下各訓(xùn)練樣本的誤差以及誤差的平均值;
(5)計算當(dāng)前學(xué)習(xí)器的權(quán)重;;
(6)調(diào)整下次迭代時的樣本分布,對樣本分布進(jìn)行歸一化處理,確保各樣本的采樣概率和為1;
(7)重復(fù)步驟(3)-(6),直至迭代次數(shù)為T為止;
(8)將T個弱學(xué)習(xí)器的權(quán)重歸一化之后加權(quán)結(jié)合,得到最終的分類器。
5.如權(quán)利要求1所述的一種維-漢文可比語料自動獲取方法,其特征在于,包括如下步驟:
獲取多個維-漢文可比語料,對所述多個維-漢文可比語料進(jìn)行關(guān)鍵字的提取,通過BP算法對所獲取的關(guān)鍵字進(jìn)行一次訓(xùn)練,生成學(xué)習(xí)器;
采用Adaboost方法對所得學(xué)習(xí)器進(jìn)行3次迭代,分別得到弱學(xué)習(xí)器l1(x)、l2(x)、l3(x),然后進(jìn)行加權(quán)輸出一個用于維-漢文可比語料預(yù)測的分類器;
通過分類器完成待檢測文本內(nèi)維-漢文可比語料的獲取。
6.如權(quán)利要求1所述的一種維-漢文可比語料自動獲取方法,其特征在于,所述關(guān)鍵字為人工標(biāo)注所得。
7.如權(quán)利要求1所述的一種維-漢文可比語料自動獲取方法,其特征在于,所述多個維-漢文可比語料通過數(shù)據(jù)挖掘模塊獲取,該數(shù)據(jù)挖掘模塊連接有一挖掘算法編輯模塊,用于進(jìn)行各種維-漢文可比語料挖掘算法的編輯,從而實現(xiàn)多種維-漢文可比語料的獲取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新疆大學(xué),未經(jīng)新疆大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711342028.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





