[發明專利]基于語義的近似文本搜索方法、裝置、計算機設備及介質在審
| 申請號: | 202110732513.1 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113434636A | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 谷坤 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/194;G06F40/216;G06F40/289 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 近似 文本 搜索 方法 裝置 計算機 設備 介質 | ||
1.一種基于語義的近似文本搜索方法,其特征在于,包括下述步驟:
獲取待查詢文本,提取所述待查詢文本中的關鍵詞,獲得與所述待查詢文本對應的關鍵詞集合;
將所述關鍵詞集合輸入詞嵌入模型中,通過所述詞嵌入模型計算出所述關鍵詞的相近詞,并將所述關鍵詞和所述相近詞作為查詢關鍵詞;
根據所述查詢關鍵詞查詢到與所述待查詢文本相似的候選文本;
計算所述待查詢文本與所述候選文本之間的相似度,根據所述相似度確定出目標文本。
2.根據權利要求1所述的基于語義的近似文本搜索方法,其特征在于,所述提取所述待查詢文本中的關鍵詞包括:
對所述待查詢文本進行分詞和去停用詞處理,得到候選關鍵詞;
獲取所述候選關鍵詞的詞語權重、詞長、詞現以及出現所述候選關鍵詞的句子的位置信息;
根據所述詞語權重、所述詞長、所述詞現以及所述位置信息,計算出所述候選關鍵詞的詞語重要度,所述詞語重要度的計算采用如下公式:
其中,f為詞語重要度,α、β、γ是超參,TFIDFi為詞語權重,lw為詞長,minpos為位置信息,C為詞現;
根據所述詞語重要度確定出關鍵詞。
3.根據權利要求2所述的基于語義的近似文本搜索方法,其特征在于,所述獲取所述候選關鍵詞的詞語權重包括:
采用TF-IDF算法計算所述候選關鍵詞的詞頻和逆文本頻率;
根據所述詞頻和所述逆文本頻率,計算出所述候選關鍵詞的詞語權值。
4.根據權利要求2所述的基于語義的近似文本搜索方法,其特征在于,所述根據所述詞語重要度確定出關鍵詞包括:
按照所述詞語重要度從大到小對候選關鍵詞進行排序,得到排序結果;
從所述排序結果中選取預設個數的候選關鍵詞作為關鍵詞。
5.根據權利要求1所述的基于語義的近似文本搜索方法,其特征在于,所述通過所述詞嵌入模型計算出所述關鍵詞的相近詞包括:
步驟A、確定所述關鍵詞集合中的其中一個關鍵詞作為中心詞,使用預設大小的滑動窗口捕獲所述中心詞的上下文詞;
步驟B、對所述中心詞和每個所述上下文詞進行one-hot編碼,形成詞語矩陣;
步驟C、通過索引映射,將所述中心詞和每個所述上下文詞映射到T維空間,形成映射矩陣;
步驟D、根據所述中心詞和每個所述上下文詞,初始化所述詞嵌入模型的映射層與隱藏層之間的權重矩陣;
步驟E、取出所述中心詞的詞向量,與所述權重矩陣做內積運算,得到所述中心詞和每個所述上下文詞的計算結果,根據計算結果確定出所述相近詞;
步驟F、重復步驟A至步驟E,為所述關鍵詞集合中的每個所述關鍵詞確定出相近詞。
6.根據權利要求1所述的基于語義的近似文本搜索方法,其特征在于,所述計算所述待查詢文本與所述候選文本之間的相似度包括:
計算所述待查詢文本的關鍵詞與每個所述候選文本的關鍵詞之間的第一相似度,并計算所述待查詢文本的相近詞與每個所述候選文本的相近詞之間的第二相似度;
通過對所述第一相似度和所述第二相似度進行加權求和計算,得到所述待查詢文本與每個所述候選文本的最終相似度。
7.根據權利要求6所述的基于語義的近似文本搜索方法,其特征在于,所述根據所述相似度確定出符合條件的目標文本包括:
將所述最終相似度大于等于預設閾值的候選文本作為目標文本。
8.一種基于語義的近似文本搜索裝置,其特征在于,包括:
獲取模塊,用于獲取待查詢文本,提取所述待查詢文本中的關鍵詞,獲得與所述待查詢文本對應的關鍵詞集合;
提取模塊,用于將所述關鍵詞集合輸入詞嵌入模型中,通過所述詞嵌入模型計算出所述關鍵詞的相近詞,并將所述關鍵詞和所述相近詞作為查詢關鍵詞;
查詢模塊,用于根據所述查詢關鍵詞查詢到與所述待查詢文本相似的候選文本;及
計算模塊,用于計算所述待查詢文本與所述候選文本之間的相似度,根據所述相似度確定出目標文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110732513.1/1.html,轉載請聲明來源鉆瓜專利網。





