[發明專利]一種基于深度學習的語義相似度計算方法有效
| 申請號: | 201910620461.1 | 申請日: | 2019-07-10 |
| 公開(公告)號: | CN110348014B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 羅光春;秦科;惠孛;劉貴松;黃為 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06V10/74;G06F18/22;G06N3/0464;G06N3/0442;G06N3/045 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 賴林東 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語義 相似 計算方法 | ||
發明公開了一種基于深度學習的語義相似度計算方法,涉及語義相似度計算領域;其包括步驟1:構建訓練數據集,并預處理訓練數據獲取one?hot稀疏向量;步驟2:構建包括N層BI?LSTM網絡、殘差網絡、相似度矩陣、CNN卷積神經網絡、池化層和全連接層的語義相似度計算網絡模型;步驟3:將one?hot稀疏向量輸入上述網絡模型,利用訓練數據集訓練參數,完成有監督訓練;步驟4:將待測文本輸入已訓練的上述網絡模型,判定是否為相似文本后輸出結果。本發明語義相似度計算網絡模型包括多層BI?LSTM網絡、殘差網絡、CNN卷積神經網絡、池化層和全連接層,同時使用BI?LSTM網絡和CNN卷積神經網絡,BI?LSTM網絡中加入殘差網絡,克服了多層網絡帶來的梯度消失問題,增強了模型的特征提取能力。
技術領域
本發明涉及語義相似度計算領域,尤其是一種基于深度學習的語義相似度計算方法。
背景技術
語義相似度計算是自然語言處理領域的一項基本任務,隨著人工智能時代的到來,越來越多的科學家和學者們將目光放在自然語言處理領域,而語義相似度計算任務因為其在文檔復制檢查、信息檢索和機器翻譯等領域都有十分廣泛的應用,越來越多的研究人員投身于語義相似度計算的研究。近年來,因為深度學習技術的興起,也使得語義相似度計算得到了突飛猛進的發展。比起傳統方法,深度學習技術能提取深層語義,獲得更加豐富的特征表達。
應用于語義相似度計算的深度學習模型包括CNN模型,BI-LSTM模型和MatchPyramid模型。CNN模型可以提取N-gram特征,即利用CNN卷積核的滑動窗口提取中心詞和周圍詞的特征,符合人類自然語言的表達;BI-LSTM模型專門用于處理具有時序數據的模型,自然語言就是一個天然的時序數據,所以BI-LSTM模型可以很好提取語義特征;MatchPyramid模型是利用詞向量點積的方法構造一個二維相似度矩陣,將此矩陣看作一個二維圖像,進而使用CNN模型進行處理,利于提取特征。一方面,上述的模型的網絡層數較淺,特征提取能力差;另一方面,CNN模型和BI-LSTM模型雖然都可以對文本進行語義特征的提取,但是兩種模型提取的特征是不同的特征,單獨使用其中一種模型,特征提取不夠完善;MatchPyramid模型利用詞向量進行相似度矩陣的構造,僅靠詞向量對于文本語義的表達不夠充分。因此,需要一種基于深度學習的語義相似度計算方法克服以上問題,實現完整提取特征,增強特征提取能力。
發明內容
本發明的目的在于:本發明提供了一種基于深度學習的語義相似度計算方法,解決現有模型特征提取不完善、網絡層數淺導致相似度計算準確度低的問題。
本發明采用的技術方案如下:
一種基于深度學習的語義相似度計算方法,包括如下步驟:
步驟1:構建訓練數據集,并預處理訓練數據獲取one-hot稀疏向量;
步驟2:構建包括N層BI-LSTM網絡、殘差網絡、相似度矩陣、CNN卷積神經網絡、池化層和全連接層的語義相似度計算網絡模型;
步驟3:將one-hot稀疏向量輸入上述語義相似度計算網絡模型,利用訓練數據集訓練所述網絡模型的參數,完成有監督訓練;
步驟4:將待測文本轉化為one-hot稀疏向量后,輸入已訓練的語義相似度計算網絡模型,判定是否為相似文本后輸出結果。
優選地,所述步驟1包括如下步驟:
步驟1.1:對構建的訓練數據集的數據格式進行統一;
步驟1.2:刪除訓練數據集中缺失數據、無關數據的特殊符號和亂碼;
步驟1.3:對步驟1.2中的訓練數據集進行分詞和構建詞典后,根據詞語在詞典中的位置,將數據轉化為one-hot稀疏向量。
優選地,所述步驟2包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910620461.1/2.html,轉載請聲明來源鉆瓜專利網。





