[發明專利]一種基于自動編碼的文本表示學習方法、系統及電子設備有效
| 申請號: | 201811287359.6 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109582786B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 曲強;楊敏 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/289 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 曹衛良 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 編碼 文本 表示 學習方法 系統 電子設備 | ||
本申請涉及一種基于自動編碼的文本表示學習方法、系統及電子設備。該方法包括:步驟a:使用編碼器對原始文本進行編碼,生成原始文本編碼后的向量表達,并通過編碼矩陣輸出編碼后的文本;步驟b:隨機刪除所述原始文本中的詞,并將被刪除的詞的詞向量置0,將未被刪除的詞使用預訓練好的詞向量表示,得到新的文本;步驟c:將所述編碼后的文本與新的文本輸入到解碼器中,并通過解碼矩陣預測所述被刪除的在時間片t的待預測詞的向量表達。本申請采用字謎游戲的方法,結合基于神經網絡的自動編碼機制,生成給定文本更精確的向量表達。實驗結果表明,本申請能提高文本分類、信息抽取等自然語言任務的準確率,改進自然語言處理任務的效果。
技術領域
本申請屬于文本表示學習技術領域,特別涉及一種基于自動編碼的文本表示學習方法、系統及電子設備。
背景技術
在自然語言處理任務中,文本表示作為數據處理的基礎步驟,引起了廣泛的研究。在自然語言處理的實際應用中,若能對輸入的文本進行精確的表達往往能提高自然語言處理的效率和效果。
在無監督文本表達中,最早的文本表示方法為詞袋法(bag-of-words)。詞袋法用一個one-hot向量來表示文本中出現的每一個詞,此one-hot向量的每一維代表一個文本中的詞,若維度對應的詞為當前詞,則此維度的值為1,否則為0。因此,在詞袋法中,每一個詞被表示為一個高維的,只有一個維度值為1而其他維度值為0的向量,向量長度為文本中出現過的詞的數量。另外,隱性語義分析(LatentSemantic Analysis)[Evangelopoulos NE.Latent semantic analysis[J].Annual Review of Information ScienceTechnology,2013,4(6):683-692.]的方法先構造詞頻矩陣,再運用矩陣降維,矩陣分解的方法來習得詞語的向量表達。其次,word2vec[Goldberg Y,Levy O.word2vec Explained:deriving Mikolov et al.'s negative-sampling word-embedding method[J].EprintArxiv,2014.]的方法通過材料庫中每個詞的上下文,采用神經網絡學習一個語言模型,根據學習得到的語言模型得到每個詞語的表達。Word2vec方法構造成的詞語表達能夠包含詞語的語義及語法信息。
在文本表達方面,現有技術中也提出了很多基于機器學習和統計的方法。然而,現有的方法雖然可以學習出詞語的向量表達,但對訓練數據運用的不充分導致學習出的向量表達不夠精確,另外,簡單的將詞語表達的連接作為文本表達也使得最終的表達缺失了對應文本的獨特信息。具體來說,現有的文本表達方法存在以下幾點不足:
1)詞袋法的表達使得最終的表達為稀疏且高維的,容易使數據產生維度災難而影響最終的自然語言處理任務的效果。且在詞袋法中,無法表示詞與詞之間的關系。例如‘電腦’和‘計算機’在詞袋法中被視為完全不同的詞。
2)詞袋法及隱性語義模型,或者其他基于矩陣分解的詞向量學習法無法有效利用詞語的語序信息。例如,‘The dog is in front of the cat’(狗在貓前面)和‘The cat isinfront of the dog’(貓在狗前面),在構造詞袋表示或者詞頻矩陣時,這兩句話的表示是一樣的,以致習得的表達是無法利用語序信息的。
3)現有的文本表達方法多為簡單的將其中的詞向量連接,這種表達方法無法有效的表達文本的全局信息。
4)因為每個文本長度不同,通過拼接詞向量的方法而產生的文本表達長短不一。在后續自然語言任務的處理中,不得不使用截斷或者填充的方法來構造定長輸入,影響任務效果。
基于現有文本表達方法的不足,本申請設計了一個無監督模型的文本表達學習網絡,利用基于神經網絡的自編碼器生成對給定文本的定長向量表達。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811287359.6/2.html,轉載請聲明來源鉆瓜專利網。





