[發明專利]文本匹配方法、裝置、設備及存儲介質有效
| 申請號: | 202110942420.1 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113656547B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 沈越 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06N3/0464 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 匹配 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能,提供一種文本匹配方法、裝置、設備及存儲介質。該方法能夠當接收到文本匹配請求時,根據文本匹配請求獲取搜索語句,獲取語句降維模型的長度需求,根據長度需求對搜索語句進行編碼處理,得到語句編碼,基于語句降維模型分析語句編碼,得到語句信息,對語句信息進行歸一化處理,得到語句特征,根據文本匹配請求獲取待選文本及待選信息,對待選信息進行過濾處理,得到待選特征,根據語句特征及待選特征計算搜索語句與待選文本的文本相似度,將文本相似度最大的待選文本確定為目標文本。本發明能夠提高文本匹配效率及匹配準確性。此外,本發明還涉及區塊鏈技術,所述目標文本可存儲于區塊鏈中。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種文本匹配方法、裝置、設備及存儲介質。
背景技術
文本匹配,是指從知識庫中匹配出與搜索語句語義相似的文本,通過文本匹配這種方式能夠提高用戶閱讀效率。在目前的文本匹配實現方式中,基于BERT模型對搜索語句與每個待選文本進行共同學習,以選取出最為匹配的文本,然而,這種方式由于重復處理步驟較多,以及,訓練出的BERT模型參數較多,導致匹配效率低下。
發明內容
鑒于以上內容,有必要提供一種文本匹配方法、裝置、設備及存儲介質,能夠提高匹配效率及匹配準確性。
一方面,本發明提出一種文本匹配方法,所述文本匹配方法包括:
當接收到文本匹配請求時,根據所述文本匹配請求獲取搜索語句;
獲取預先訓練好的語句降維模型,并獲取所述語句降維模型的長度需求;
根據所述長度需求對所述搜索語句進行編碼處理,得到語句編碼;
基于所述語句降維模型分析所述語句編碼,得到語句信息;
對所述語句信息進行歸一化處理,得到語句特征;
根據所述文本匹配請求獲取多個待選文本及每個待選文本對應的待選信息;
對所述待選信息進行過濾處理,得到待選特征;
根據所述語句特征及所述待選特征計算所述搜索語句與每個待選文本的文本相似度;
將所述文本相似度最大的待選文本確定為目標文本。
根據本發明優選實施例,所述根據所述文本匹配請求獲取搜索語句包括:
解析所述文本匹配請求的報文,得到所述報文攜帶的數據信息;
從所述數據信息中提取語句路徑及語句標識,并計算所述語句路徑及所述語句標識的查詢總量;
根據所述查詢總量獲取查詢模板;
將所述語句路徑及所述語句標識寫入所述查詢模板中,得到查詢語句;
運行所述查詢語句,得到所述搜索語句。
根據本發明優選實施例,所述根據所述長度需求對所述搜索語句進行編碼處理,得到語句編碼包括:
對所述搜索語句進行拆分處理,得到多個搜索字符及每個搜索字符的拆分序號;
基于字符映射表獲取每個搜索字符的字符向量;
根據所述拆分序號拼接所述字符向量,得到初始編碼;
根據所述語句標識確定所述搜索語句所屬的語句類型;
拼接預設標識、所述語句類型的類型標識及所述初始編碼,得到中間編碼,并計算所述中間編碼的編碼長度;
若所述編碼長度大于所述長度需求,根據所述長度需求處理所述中間編碼,得到所述語句編碼;或者
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110942420.1/2.html,轉載請聲明來源鉆瓜專利網。





