[發(fā)明專利]一種基于遷移學(xué)習(xí)的低資源領(lǐng)域分詞器訓(xùn)練方法及分詞方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711026810.4 | 申請(qǐng)日: | 2017-10-27 |
| 公開(公告)號(hào): | CN107967253A | 公開(公告)日: | 2018-04-27 |
| 發(fā)明(設(shè)計(jì))人: | 孫栩;許晶晶;李煒;馬樹銘 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06K9/62;G06N3/04 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 遷移 學(xué)習(xí) 資源 領(lǐng)域 分詞 訓(xùn)練 方法 | ||
1.一種基于遷移學(xué)習(xí)的低資源領(lǐng)域分詞器訓(xùn)練方法,其步驟包括:
1)在目標(biāo)領(lǐng)域和各設(shè)定領(lǐng)域分別進(jìn)行訓(xùn)練,生成各領(lǐng)域?qū)?yīng)的分詞器;
2)利用步驟1)得到的各領(lǐng)域的分詞器對(duì)目標(biāo)領(lǐng)域的語料進(jìn)行分詞處理,獲得各分詞器在該目標(biāo)領(lǐng)域的語料上每個(gè)字xi的隱層表示;
3)計(jì)算步驟2)中獲得的各分詞器在該目標(biāo)領(lǐng)域的語料上每個(gè)字xi的隱層表示與目標(biāo)領(lǐng)域的分詞器t在該目標(biāo)領(lǐng)域的語料上每個(gè)字xi的隱層表示的相關(guān)度,然后根據(jù)所述相關(guān)度得到各領(lǐng)域分詞器對(duì)字xi的權(quán)重向量;
4)根據(jù)步驟3)得到的權(quán)重向量對(duì)各分詞器得到的隱層表示進(jìn)行加權(quán)求和,得到一最終的隱層表示,并以該最終的隱層表示計(jì)算字xi的標(biāo)簽;
5)根據(jù)步驟4)得到各字的預(yù)測(cè)標(biāo)簽與標(biāo)準(zhǔn)結(jié)果訓(xùn)練得到該目標(biāo)領(lǐng)域的分詞器。
2.如權(quán)利要求1所述的方法,其特征在于,所述權(quán)重向量其中,hi,j為第j個(gè)設(shè)定領(lǐng)域的分詞器j對(duì)該目標(biāo)領(lǐng)域的語料中樣例X的字xi的隱層表示;hi,t為分詞器t對(duì)該目標(biāo)領(lǐng)域的語料中樣例X的字xi的隱層表示;σ2是超參數(shù),Z是歸一化參數(shù)。
3.如權(quán)利要求1所述的方法,其特征在于,所述權(quán)重向量其中,ei,j=f(W1[W2·hi,hi,j]);hi,j代表第j個(gè)分詞器對(duì)該目標(biāo)領(lǐng)域的語料中樣例X的字xi輸出的隱層向量表示,hi代表m個(gè)分詞器對(duì)該目標(biāo)領(lǐng)域的語料中樣例X的字xi輸出的隱層向量表示的級(jí)聯(lián)結(jié)果,W1和W2均為待學(xué)習(xí)參數(shù)矩陣,[]代表將兩個(gè)向量并聯(lián)起來,ei,j為權(quán)重參數(shù),αi,j為歸一化的權(quán)重參數(shù)。
4.如權(quán)利要求1所述的方法,其特征在于,所述權(quán)重向量其中,hi,j代表第j個(gè)分詞器對(duì)該目標(biāo)領(lǐng)域的語料中樣例X的字xi輸出的隱層向量表示,ei,j為權(quán)重參數(shù),αi,j為歸一化的權(quán)重參數(shù)。
5.如權(quán)利要求1所述的方法,其特征在于,所述權(quán)重向量其中,l表示門控網(wǎng)絡(luò)的第l個(gè)遞歸層,j表示門控網(wǎng)絡(luò)的第j個(gè)節(jié)點(diǎn),W為參數(shù)矩陣,[]代表級(jí)聯(lián)操作,表示門控網(wǎng)絡(luò)的第l個(gè)遞歸層第j個(gè)節(jié)點(diǎn)的輸出,zN,zL,zR,rL,rR為門控網(wǎng)絡(luò)中待學(xué)習(xí)的門。
6.如權(quán)利要求1所述的方法,其特征在于,所述步驟5)的方法為:計(jì)算步驟4)得到的預(yù)測(cè)標(biāo)簽與標(biāo)準(zhǔn)結(jié)果間的負(fù)對(duì)數(shù)似然損失,并通過隨機(jī)優(yōu)化方法減小負(fù)對(duì)數(shù)似然損失,得到該目標(biāo)領(lǐng)域的分詞器。
7.如權(quán)利要求1~6任一所述的方法,其特征在于,所述設(shè)定領(lǐng)域?yàn)楦徽Z料資源領(lǐng)域,所述目標(biāo)領(lǐng)域?yàn)榈驼Z料資源領(lǐng)域。
8.一種基于遷移學(xué)習(xí)的低資源領(lǐng)域分詞方法,其步驟包括:
1)在目標(biāo)領(lǐng)域和各設(shè)定領(lǐng)域分別進(jìn)行訓(xùn)練,生成各領(lǐng)域?qū)?yīng)的分詞器;
2)利用步驟1)得到的各領(lǐng)域的分詞器對(duì)目標(biāo)領(lǐng)域的語料進(jìn)行分詞處理,獲得各分詞器在該目標(biāo)領(lǐng)域的語料上每個(gè)字xi的隱層表示;
3)計(jì)算步驟2)中獲得的各分詞器在該目標(biāo)領(lǐng)域的語料上每個(gè)字xi的隱層表示與目標(biāo)領(lǐng)域的分詞器t在該目標(biāo)領(lǐng)域的語料上每個(gè)字xi的隱層表示的相關(guān)度,然后根據(jù)所述相關(guān)度得到各領(lǐng)域分詞器對(duì)字xi的權(quán)重向量;
4)根據(jù)步驟3)得到的權(quán)重向量對(duì)各分詞器得到的隱層表示進(jìn)行加權(quán)求和,得到一最終的隱層表示,并以該最終的隱層表示計(jì)算字xi的標(biāo)簽。
9.一種基于遷移學(xué)習(xí)的低資源領(lǐng)域分詞方法,其特征在于,采用權(quán)利要求1所述的方法訓(xùn)練得到目標(biāo)領(lǐng)域的分詞器對(duì)目標(biāo)領(lǐng)域的語料進(jìn)行分詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711026810.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 遷移方法和裝置
- 移動(dòng)邊緣系統(tǒng)中遷移應(yīng)用方法、相關(guān)設(shè)備及系統(tǒng)
- 虛擬機(jī)的遷移方法及裝置
- 數(shù)據(jù)遷移方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 計(jì)算任務(wù)遷移方法及計(jì)算任務(wù)遷移器
- 文件遷移方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于遷移工具的國產(chǎn)化應(yīng)用系統(tǒng)遷移方法
- 數(shù)據(jù)遷移方法及裝置
- 文件遷移方法及裝置
- 一種數(shù)據(jù)遷移方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





