[發明專利]具有依賴關系的自然語言多任務建模、預測方法及系統有效
| 申請號: | 202011129406.1 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112488290B | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 姜華;陳文清;田濟東 | 申請(專利權)人: | 上海旻浦科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 上海恒慧知識產權代理事務所(特殊普通合伙) 31317 | 代理人: | 張寧展 |
| 地址: | 200120 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具有 依賴 關系 自然語言 任務 建模 預測 方法 系統 | ||
1.一種具有依賴關系的自然語言多任務結果預測方法,其特征在于,包括:
S1:對一個長度為n的輸入文本X進行詞嵌入,轉換成一個詞嵌入序列E={ei}1≤i≤n;
S2:以任務的真實結果作為標簽,對于任一任務k,將前k-1個任務的標簽進行嵌入和遷移:
定義每個任務的標簽為標簽嵌入為則該標簽嵌入由一個全連接神經網絡處理得到:
其中,Wk是每個任務的全連接神經網絡的參數矩陣;
將每個任務的標簽嵌入經過一個標簽遷移器得到的遷移結果為計算過程為:
S3:對詞嵌入序列、遷移后的標簽嵌入以及任務k-1的編碼進行處理,得到任務k的編碼為:
Hk=Encoder(k)(E,THk-1,Hk-1)
其中,Encoder(k)為任務k的編碼器;
S4:對任務k的編碼進行預測,得到任務k的輸出為:
其中,Predictor(k)為任務k的預測器,由單層或多層全連接神經網絡組成,然后再用softmax函數對進行轉換,生成任務k的預測結果的概率分布:
其中,概率分布中的對應最大概率的類別則為任務k的預測結果;
S5:使用Gumbel采樣對S4中得到的任務k的預測結果進行反事實取值,得到:
其中,表示根據概率分布采樣后的結果,g從Gumbel(0,1)分布中采樣而得,τ為softmax函數的溫度參數,當τ接近0時,接近于根據概率分布采樣的值并轉換成的one-hot向量;
S6:將得到的采樣值替換S2中所采用的任務標簽,重新執行S2至S4,得到任務k預測結果的概率分布
S7,采用損失函數對S6得到的任務k預測結果進行訓練和優化:
若任務k為命名實體識別,則其損失函數由交叉熵計算而得:
其中,為第i個詞對應第c個實體類別的標簽,若其為1則表示該詞為實體類別c,若為0則表示不是類別c;
若任務k為文本序列分類任務,則其損失函數為:
其中,表示整個文本序列第c個實體類別的標簽,若其為1則表示該詞為實體類別c,若為0則表示不是類別c;
將多個任務的損失函數進行綜合得到:
其中,表示總損失函數,λk表示任務k對應的權重;
最小化總損失函數,實現對任務k預測結果的訓練及優化;
每個任務k均能夠利用其所有低層任務的標簽信息,其中:
對于任務k,其標簽為Yk,編碼結果為Hk,所有低層任務遷移后的標簽信息為THk-1,遷移后的標簽信息對于標簽的間接因果路徑為THk-1→Hk→Yk,即低層任務的標簽信息通過影響任務k的編碼結果從而影響任務k的預測結果;
對于任務k,其標簽為Yk,所有低層任務遷移后的標簽信息為THk-1,遷移后的標簽信息對于標簽的直接因果路徑THk-1→Yk,即低層任務的標簽信息直接輸入給預測器,此路徑不受輸入文本的影響。
2.根據權利要求1所述的具有依賴關系的自然語言多任務結果預測方法,其特征在于,所述任務k的編碼器包括:雙向長短時記憶網絡、卷積神經網絡或基于注意力的變形網絡。
3.根據權利要求1所述的具有依賴關系的自然語言多任務結果預測方法,其特征在于,所述任務k的預測器包括:全連接神經網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海旻浦科技有限公司,未經上海旻浦科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011129406.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于紡織加工的漂浮物清理裝置
- 下一篇:一種復合加熱的三維增材打印機





