[發明專利]一種基于深度學習集成模型的文本相似度計算方法有效
| 申請號: | 202010107048.8 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111325029B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 蘇心玥;陶飛飛;唐勇軍;楊泰勇;彭新宇;李婉婷 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/194;G06F16/35;G06N3/0442;G06N3/0464;G06N3/045 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 成立珍 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 集成 模型 文本 相似 計算方法 | ||
1.一種基于深度學習集成模型的文本相似度計算方法,其特征在于,包括如下步驟:
(1)基于雙向Bi-LSTM神經網絡進行中文分詞;
(2)去停用詞、糾錯、同義詞替換;
(3)關鍵詞檢索;
(4)采用Word2Vec訓練得到客戶問題文本詞向量、標準問題文本詞向量;
(5)特征工程抽取;
(6)基于Siamese?LSTM模型的短文本相似度計算;
(7)基于Siamese?CNN模型的長文本相似度計算;具體過程為:
步驟71:獲取客戶問題長文本詞向量、標準問題文本詞向量;
步驟72:使用CNN的不同大小卷積窗口的filter來抽取句子中各種長度元組的信息;
步驟73:使用歐式距離公式計算文本相似度;
(8)基于ESIM模型的文本語義相似度計算;具體過程為:
步驟81:獲取客戶提問問題和標準問題;
步驟82:客戶提問問題的文本詞序列輸入到Siamese?LSTM中的第一個LSTM中,標準問題輸入到另一個LSTM中;
步驟83:用標準問題的語義表示對齊第一LSTM中的每個詞語義表示,累加成新的句子語義存儲起來;
步驟84:做句子級別的Attention對齊,使用標準問題的語義表示對存儲的客戶提問問題的語義表示進行對齊操作;
步驟85:使用MSE公式(2)作為損失函數得到匹配語義表示:
MSE=?exp(-||x1?-?x2||)???????????????????(2)
步驟86:完成相似度計算;
(9)基于Stacking集成LSTM、CNN及ESIM模型相似度計算;具體過程為:
步驟91:獲取LSTM、CNN及ESIM模型的輸出作為輸入;
步驟92:采用兩層Stacking模型第一層的基分類器對訓練集X_train進行5折交叉驗證,再使用訓練的模型預測X_test取均值;
步驟93:X_test均值作為第二層Stacking模型的輸入,訓練第二層的Stacking模型;
步驟94:通過Stacking模型的返回值用以計算文本相似度。
2.根據權利要求1所述的基于深度學習集成模型的文本相似度計算方法,其特征在于,所述步驟(1)中基于雙向Bi-LSTM神經網絡進行中文分詞的具體過程為:
步驟1:標注序列;
步驟2:雙向LSTM網絡預測標簽;
步驟3:Viterbi算法求解最優路徑。
3.根據權利要求2所述的基于深度學習集成模型的文本相似度計算方法,其特征在于,采取雙向編碼句子,采取拼接向量用以情感分類。
4.根據權利要求1所述的基于深度學習集成模型的文本相似度計算方法,其特征在于,所述步驟(5)中特征工程抽取的具體過程為:
步驟1:統計特征抽取;
步驟2:圖特征抽取。
5.根據權利要求1所述的基于深度學習集成模型的文本相似度計算方法,其特征在于,所述步驟(6)中基于Siamese?LSTM模型的短文本相似度計算,采用歐式距離公式(1)計算文本詞向量相似度:
其中,A、B為n維空間中兩個點,A=(a1,a2,...an),B=(b1,b2,...,bn)。
6.如權利要求1所述的基于深度學習集成模型的文本相似度計算方法,其特征在于,Stacking模型采用logistic回歸作為元模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010107048.8/1.html,轉載請聲明來源鉆瓜專利網。





