[發明專利]一種基于自動編碼的文本表示學習方法、系統及電子設備有效
| 申請號: | 201811287359.6 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109582786B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 曲強;楊敏 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/289 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 曹衛良 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 編碼 文本 表示 學習方法 系統 電子設備 | ||
1.一種基于自動編碼的文本表示學習方法,其特征在于,包括以下步驟:
步驟a:使用編碼器對原始文本進行編碼,生成原始文本編碼后的向量表達,并通過編碼矩陣輸出編碼后的文本;
步驟b:隨機刪除所述原始文本中的詞,并將被刪除的詞的詞向量置0,將未被刪除的詞使用預訓練好的詞向量表示,得到新的文本;
步驟c:將所述編碼后的文本與新的文本輸入到解碼器中,并通過解碼矩陣預測所述被刪除的在時間片t的待預測詞的向量表達;
采用雙向長短期記憶的編碼網絡BI-LSTM作為解碼器,雙向長短期記憶的編碼網絡BI-LSTM通過被預測詞的上下文和給定文本的編碼來預測被預測詞的隱含表達;
令和分別為前向長短期記憶網絡和反向長短期記憶網絡的參數,則:
然后可以通過下式得到
公式(7)中,為與的串聯,Wp為可訓練的解碼矩陣,bp為可訓練的偏置值,為t時刻前向網絡神經元中的值,為t時刻反向網絡神經元中的值;
在解碼器訓練過程中,以待預測詞向量表達與實際詞向量表達xt的差值作為訓練的損失函數,損失函數設置為:
公式(8)中,cj為表示當前詞wj是否被刪除的參數:
對于有N個文本的訓練集,對編碼器及解碼器聯合,進行端到端的訓練,訓練目標函數為:
公式(10)中,θe為編碼器的參數,θd為解碼器的參數,訓練過程可用梯度下降方法實現。
2.根據權利要求1所述的基于自動編碼的文本表示學習方法,其特征在于,所述步驟a還包括:將所述原始文本中的每個詞用預訓練好的詞向量表示;具體為:設所述原始文本d由n個詞組成,d=[w1,w2,…,wi,...,wn],wi為所述原始文本中的第i個詞,采用word2vec模型得到每個詞的低維向量表達,將所述原始文本中的每個詞通過訓練好的向量映射到低維空間中。
3.根據權利要求2所述的基于自動編碼的文本表示學習方法,其特征在于,在所述步驟a中,所述編碼器為長短期記憶網絡LSTM;設xi為詞wi的低維向量表達,所述長短期記憶網絡LSTM中的隱含狀態zi更新公式為:
上述公式中,θe表示編碼器的待訓練參數;
然后,通過如下公式作為原始文本的向量表達:
e=tanh(Wezn+be)
上述公式中,We為一個可訓練的編碼矩陣,be為可訓練的偏置值,Zn為第n個隱含狀態。
4.根據權利要求1所述的基于自動編碼的文本表示學習方法,其特征在于,在所述步驟c中,所述通過解碼矩陣預測所述被刪除的在時間片t的待預測詞的向量表達具體為:假設所述新的文本為{x′1,…,x′n},xzero為一個長度等于|xt|的全0向量:
設xt為位于時間片t的待預測詞的實際詞向量表達,n為文本長度,DecodeNet為解碼網絡,則通過解碼器預測的詞向量表達為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811287359.6/1.html,轉載請聲明來源鉆瓜專利網。





