[發明專利]一種基于注意力分散的長短期記憶網絡的語義編碼方法有效
| 申請號: | 202110375326.2 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN113033189B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 郭樹理;楊文濤;韓麗娜;王國威;宋曉偉 | 申請(專利權)人: | 北京理工大學;中國人民解放軍總醫院第二醫學中心;海南軟件職業技術學院 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 鄔曉楠 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 分散 短期 記憶 網絡 語義 編碼 方法 | ||
本發明公開的一種基于注意力分散的長短期記憶網絡的語義編碼方法,屬于自然語言處理生成領域。針對現有技術中存在的語義偏差、梯度消失、梯度爆炸、融合上下文信息不完善等問題,本發明使用的神經網絡在BiLSTM基礎上添加了一個參數共享單元,增強了模型獲取和融合雙向特征信息的能力;采用改進了的深度學習模型中的激活函數,減小了梯度問題出現的概率;對輸入和隱藏層,采用交互空間和擴展LSTM的方式構建模型,增強了模型融合上下文信息的能力;引入了語句結構信息變量的注意力分散機制,對語義的生成進行了限制從而提了高語義準確性。本發明適用于自動寫新聞或標題、機器人客服、會議或診斷報告生成等自然語言生成的應用。
技術領域
本發明涉及一種基于注意力分散的長短期記憶網絡的語義編碼方法,屬于自然語言處理生成領域。
背景技術
自然語言生成主要應用在人機對話以及摘要、圖片視頻描述等領域,是自動寫新聞或標題、機器人客服、會議或診斷報告生成等應用的核心技術。而其中語義的正確性是生成語言的關鍵所在。
自然語言生成多采用編碼到解碼的序列轉換形式,將一序列信息轉換成另一對應的序列文本。層級編碼的過程分為句子語義編碼、篇章信息編碼、解碼、句子概率計算4個步驟。文本生成步驟中,句子語義編碼是自然語言生成的底層的基礎步驟,其目的是為得到句子的特征向量。句子語義編碼時,語義的獲取能力和正確性,對自然語言的生成有著重要的作用。
自然語言中最重要的信息是語義信息,語義包含著近義詞,同義詞,句子的結構主題等信息,語義的正確性決定著自然語言處理效果的好壞。目前隨著計算機技術的發展以及語言數據庫的完善,利用機器學習和神經網絡可以生成語義較為準確的自然語言。但是由于訓練神經網絡的資源貧乏和訓練學習機制的不完善,所以生成的自然語言在語義上仍存在錯誤和偏差。
目前技術中主要采用編碼-解碼框架解決語言的生成任務。編碼-解碼框架中的編碼器主要為長短神經網絡(LSTM),由于其改善了長序列信息中梯度消失和梯度爆炸的問題,在自然語言的處理上有著廣泛的應用。雙向長短時記憶神經網絡(BiLSTM)主要是由兩層LSTM層組成,分別為前向LSTM和后向LSTM,這種結構可以對語句中的上下文信息進行捕獲。對前向和后向的神經網絡進行訓練,可以做到同時處理并保留未來和過去的信息,因此可以得到較為豐富和深入的信息。雖然BiLSTM改善了梯度爆炸和梯度消失的問題,但是在序列信息過長時仍存在上述兩種問題,同時盡管BiLSTM可以獲取序列的雙向特征信息,但是僅僅將雙向的輸出進行連接,而未建立完善的融合上下文信息的鏈接機制。
發明內容
本發明公開的一種基于注意力分散的長短期記憶網絡的語義編碼方法,屬于自然語言處理生成領域。針對現有技術中存在的語義偏差、梯度消失、梯度爆炸、融合上下文信息不完善等問題,本發明使用的神經網絡在BiLSTM基礎上添加了一個參數共享單元,增強了模型獲取和融合雙向特征信息的能力;采用改進了的深度學習模型中的激活函數,減小了梯度問題出現的概率;對輸入和隱藏層,采用交互空間和擴展LSTM的方式構建模型,增強了模型融合上下文信息的能力;引入了語句結構信息變量的注意力分散機制,對語義的生成進行了限制從而提了高語義準確性。本發明適用于自動寫新聞或標題、機器人客服、會議或診斷報告生成等自然語言生成的應用。
為達到以上的目的,本發明采用以下技術方案。
本發明采用參數共享單元與BiLSTM相結合的自然語言生成編碼模型,結合BiLSTM的雙向網絡結構,利用上下文關系來增強生成語句的語義效果。目前語言生成技術多采用LSTM,但LSTM由于梯度問題使其在處理長序列的自然語言任務存在語義偏差的問題。對此問題,編碼模型相較于傳統的BiLSTM編碼添加了一個參數共享單元。參數共享單元對LSTM網絡中的激活函數進行改進,使神經網絡更適應語義編碼任務,同時將語言輸入記錄為語義表示信息,并將此信息傳達給修改后的LSTM單元。BiLSTM結合注意力分散力機制去規劃語句之間的關聯性從而在確保全局信息的前提下完成自然語言生成的編碼。采用以上方法提高自然語言生成的準確性和穩定性,具有更好效果的語義完整性和流暢性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學;中國人民解放軍總醫院第二醫學中心;海南軟件職業技術學院,未經北京理工大學;中國人民解放軍總醫院第二醫學中心;海南軟件職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110375326.2/2.html,轉載請聲明來源鉆瓜專利網。





