[發明專利]文本相似度判別方法在審
| 申請號: | 201910808602.2 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN111639661A | 公開(公告)日: | 2020-09-08 |
| 發明(設計)人: | 劉鳳余;張琦;郭冬;黃建強 | 申請(專利權)人: | 上海卓繁信息技術股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 上海容慧專利代理事務所(普通合伙) 31287 | 代理人: | 于曉菁 |
| 地址: | 200030 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 判別 方法 | ||
一種文本相似度判別方法,對去停用詞后的第一和第二待判別文本均按詞級和字符級分割;對詞級分割后的第一和第二待判別分割文本訓練量化獲得第一和第二詞級待判別數字向量,對字符級分割后的第一和第二待判別分割文本訓練量化獲得第一和第二字符級待判別數字向量;將第一詞級和字符級待判別數字向量輸入第一編碼器訓練,將第二詞級和字符級待判別數字向量輸入第二編碼器訓練;兩編碼器的輸出結果分別相減及點乘并拼接;將拼接后數字向量進行平均池化和最大池化并拼接;將池化拼接后數字向量作為全連接層的輸入以輸出二維數字向量;將二維數字向量作為分類器的輸入以獲得分類二維數字向量,分析第一待判別文本和第二待判別文本的相似度。
技術領域
本發明涉及文本相似度判別技術領域,特別是涉及一種文本相似度判別方法。
背景技術
在人機對話領域,文本相似度計算在問答檢索中有著重要的應用。隨著深度學習的廣泛應用,越來越多的神經網絡模型在計算文本相似度時有很好的效果。在深度學習中,用于文本相似度計算的模型,代表性的有基于LSTM和CNN編碼結構的孿生網絡,但是這些文本計算模型存在特征提取不全,泛化性差的的缺點,為了解決上述問題,提出一種新型文本相似度判斷方法。
發明內容
本發明針對現有技術存在的問題和不足,提供一種新的文本相似度判別方法。
本發明是通過下述技術方案來解決上述技術問題的:
本發明提供一種文本相似度判別方法,其特點在于,其包括以下步驟:
S1、對第一待判別文本和第二待判別文本進行去停用詞預處理,對作為訓練語料的去停用詞后的第一待判別文本和第二待判別文本均按照詞級和字符級進行分割;
S2、對詞級分割后的第一待判別分割文本和第二待判別分割文本進行訓練量化以獲得第一詞級待判別數字向量和第二詞級待判別數字向量,對字符級分割后的第一待判別分割文本和第二待判別分割文本進行訓練量化以獲得第一字符級待判別數字向量和第二字符級待判別數字向量;
S3、將第一詞級待判別數字向量和第一字符級待判別數字向量輸入至第一編碼器的第一層神經網絡中進行訓練以輸出第一層待判別數字向量一,將第二詞級待判別數字向量和第二字符級待判別數字向量輸入至第二編碼器的第一層神經網絡中進行訓練以輸出第一層待判別數字向量二;
S4、將第一層待判別數字向量一、第一詞級待判別數字向量和第一字符級待判別數字向量輸入至第一編碼器的第二層神經網絡中進行訓練以輸出第二層待判別數字向量一,將第一層待判別數字向量二、第二詞級待判別數字向量和第二字符級待判別數字向量輸入至第二編碼器的第二層神經網絡中進行訓練以輸出第二層待判別數字向量二;
S5、將第二層待判別數字向量一、第一層待判別數字向量一、第一詞級待判別數字向量和第一字符級待判別數字向量輸入至第一編碼器的第三層神經網絡中進行訓練以輸出第三層每一個時刻的輸出向量,得到第一待判別文本的表示矩陣,將第二層待判別數字向量二、第一層待判別數字向量二、第二詞級待判別數字向量和第二字符級待判別數字向量輸入至第二編碼器的第三層神經網絡中進行訓練以輸出第三層每一個時刻的輸出向量,得到第二待判別文本的表示矩陣;
S6、將第一待判別文本的表示矩陣輸入至第一編碼器的卷積神經網絡中進行訓練以輸出第一卷積待判別數字向量,將第二待判別文本的表示矩陣輸入至第二編碼器的卷積神經網絡中進行訓練以輸出第二卷積待判別數字向量;
S7、分別將第一卷積待判別數字向量和第二卷積待判別數字向量進行相減以及點乘,將相減后的數字向量和點乘后的數字向量進行融合拼接;
S8、將拼接后的數字向量進行平均池化和最大池化,將平均池化后的數字向量和最大池化后的數字向量進行融合拼接;
S9、將池化拼接后的數字向量作為全連接層的輸入以輸出一行兩列的二維數字向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海卓繁信息技術股份有限公司,未經上海卓繁信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910808602.2/2.html,轉載請聲明來源鉆瓜專利網。





