[發明專利]基于語義的近似文本搜索方法、裝置、計算機設備及介質在審
| 申請號: | 202110732513.1 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113434636A | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 谷坤 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/194;G06F40/216;G06F40/289 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 近似 文本 搜索 方法 裝置 計算機 設備 介質 | ||
本申請實施例屬于人工智能領域,涉及一種基于語義的近似文本搜索方法,包括獲取待查詢文本,提取待查詢文本中的關鍵詞,獲得與待查詢文本對應的關鍵詞集合,將關鍵詞集合輸入詞嵌入模型中,通過詞嵌入模型計算出關鍵詞的相近詞,并將關鍵詞和相近詞作為查詢關鍵詞,根據查詢關鍵詞查詢到與待查詢文本相似的候選文本,計算待查詢文本與候選文本之間的相似度,根據相似度確定出目標文本。本申請還提供一種基于語義的近似文本搜索裝置、計算機設備及存儲介質。此外,本申請還涉及區塊鏈技術,待查詢文本可存儲于區塊鏈中。本申請可以提高搜索結果的準確率。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種基于語義的近似文本搜索方法、裝置、計算機設備及介質。
背景技術
隨著科技的不斷發展,計算機人工智能技術變得日益完善和成熟,人工智能技術的發展使人們的生活越來越便利。例如,在海量數據的背景下進行近似文本搜索。
傳統文本近似模型主要分為特征提取、向量相似度計算兩個步驟,但是在文本特征提取時,傳統文本近似模型主要基于概率抽取關鍵詞方式,這種方式的缺點是很難從人的先驗概率抓住文本的核心關鍵詞。此外,在完成特征提取后沒有考慮近似語義關鍵詞占據的權重,如“人臉識別”和“人臉比對”在詞意上本身存在關聯性,從而導致搜索出的信息不夠準確。
發明內容
本申請實施例的目的在于提出一種基于語義的近似文本搜索方法、裝置、計算機設備及存儲介質,以解決相關技術中特征提取難以抓住核心關鍵詞,造成搜索結果準確性低的問題。
為了解決上述技術問題,本申請實施例提供一種基于語義的近似文本搜索方法,采用了如下所述的技術方案:
獲取待查詢文本,提取所述待查詢文本中的關鍵詞,獲得與所述待查詢文本對應的關鍵詞集合;
將所述關鍵詞集合輸入詞嵌入模型中,通過所述詞嵌入模型計算出所述關鍵詞的相近詞,并將所述關鍵詞和所述相近詞作為查詢關鍵詞;
根據所述查詢關鍵詞查詢到與所述待查詢文本相似的候選文本;
計算所述待查詢文本與所述候選文本之間的相似度,根據所述相似度確定出目標文本。
進一步的,所述提取所述待查詢文本中的關鍵詞包括:
對所述待查詢文本進行分詞和去停用詞處理,得到候選關鍵詞;
獲取所述候選關鍵詞的詞語權重、詞長、詞現以及出現所述候選關鍵詞的句子的位置信息;
根據所述詞語權重、所述詞長、所述詞現以及所述位置信息,計算出所述候選關鍵詞的詞語重要度,所述詞語重要度的計算采用如下公式:
其中,f為詞語重要度,α、β、γ是超參,TFIDFi為詞語權重,lw為詞長,minpos為位置信息,C為詞現;
根據所述詞語重要度確定出關鍵詞。
進一步的,所述獲取所述候選關鍵詞的詞語權重包括:
采用TF-IDF算法計算所述候選關鍵詞的詞頻和逆文本頻率;
根據所述詞頻和所述逆文本頻率,計算出所述候選關鍵詞的詞語權值。
進一步的,所述根據所述詞語重要度確定出關鍵詞包括:
按照所述詞語重要度從大到小對候選關鍵詞進行排序,得到排序結果;
從所述排序結果中選取預設個數的候選關鍵詞作為關鍵詞。
進一步的,所述通過所述詞嵌入模型計算出所述關鍵詞的相近詞包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110732513.1/2.html,轉載請聲明來源鉆瓜專利網。





