[發明專利]文本匹配方法、裝置、設備及存儲介質有效
| 申請號: | 202110942420.1 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113656547B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 沈越 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06N3/0464 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 匹配 方法 裝置 設備 存儲 介質 | ||
1.一種文本匹配方法,其特征在于,所述文本匹配方法包括:
當接收到文本匹配請求時,根據所述文本匹配請求獲取搜索語句;
獲取預先訓練好的語句降維模型,并獲取所述語句降維模型的長度需求;
根據所述長度需求對所述搜索語句進行編碼處理,得到語句編碼;
基于所述語句降維模型分析所述語句編碼,得到語句信息;
對所述語句信息進行歸一化處理,得到語句特征;
根據所述文本匹配請求獲取多個待選文本及每個待選文本對應的待選信息;
對所述待選信息進行過濾處理,得到待選特征;
根據所述語句特征及所述待選特征計算所述搜索語句與每個待選文本的文本相似度;
將所述文本相似度最大的待選文本確定為目標文本。
2.如權利要求1所述的文本匹配方法,其特征在于,所述根據所述文本匹配請求獲取搜索語句包括:
解析所述文本匹配請求的報文,得到所述報文攜帶的數據信息;
從所述數據信息中提取語句路徑及語句標識,并計算所述語句路徑及所述語句標識的查詢總量;
根據所述查詢總量獲取查詢模板;
將所述語句路徑及所述語句標識寫入所述查詢模板中,得到查詢語句;
運行所述查詢語句,得到所述搜索語句。
3.如權利要求2所述的文本匹配方法,其特征在于,所述根據所述長度需求對所述搜索語句進行編碼處理,得到語句編碼包括:
對所述搜索語句進行拆分處理,得到多個搜索字符及每個搜索字符的拆分序號;
基于字符映射表獲取每個搜索字符的字符向量;
根據所述拆分序號拼接所述字符向量,得到初始編碼;
根據所述語句標識確定所述搜索語句所屬的語句類型;
拼接預設標識、所述語句類型的類型標識及所述初始編碼,得到中間編碼,并計算所述中間編碼的編碼長度;
若所述編碼長度大于所述長度需求,根據所述長度需求處理所述中間編碼,得到所述語句編碼;或者
若所述編碼長度小于所述長度需求,以所述編碼長度與所述長度需求的長度差值為填充位數,對所述中間編碼進行填充處理,得到所述語句編碼;或者
若所述編碼長度等于所述長度需求,將所述中間編碼確定為所述語句編碼。
4.如權利要求1所述的文本匹配方法,其特征在于,在獲取預先訓練好的語句降維模型之前,所述方法還包括:
獲取學習器,并獲取所述學習器的初始需求;
獲取訓練樣本,所述訓練樣本包括樣本語句及相似文本;
提取所述相似文本的語義編碼;
根據所述初始需求對所述樣本語句進行編碼,得到樣本編碼;
基于所述學習器對所述樣本編碼進行降維處理,得到預測編碼;
根據所述預測編碼與所述語義編碼的編碼距離調整所述初始需求及所述學習器的網絡參數,直至所述編碼距離不再降低,得到所述語句降維模型。
5.如權利要求1所述的文本匹配方法,其特征在于,所述語句降維模型包括卷積層、池化層及全連接層,所述基于所述語句降維模型分析所述語句編碼,得到語句信息包括:
基于所述卷積層中的多個卷積核對所述語句編碼進行特征提取,得到卷積特征;
基于所述池化層中的池化函數篩選所述卷積特征,得到池化結果;
獲取所述全連接層中的權值矩陣及偏置值;
計算所述池化結果與所述權值矩陣的乘積,并計算所述乘積與所述偏置值的總和,得到所述語句信息。
6.如權利要求1所述的文本匹配方法,其特征在于,所述對所述待選信息進行過濾處理,得到待選特征包括:
獲取預設列表,所述預設列表包括預設停用詞及預設符的初始表征;
基于所述初始表征遍歷所述待選信息;
從所述待選信息中刪除與所述初始表征相同的信息,得到所述待選特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110942420.1/1.html,轉載請聲明來源鉆瓜專利網。





