[發(fā)明專利]針對字符串的相似度確定方法、裝置、設備及存儲介質在審
| 申請?zhí)枺?/td> | 202110695107.2 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113344100A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設計)人: | 董潤華 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/903 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 字符串 相似 確定 方法 裝置 設備 存儲 介質 | ||
本申請實施例提供了一種針對字符串的相似度確定方法、裝置、設備及存儲介質,本申請涉及自然語言處理技術領域,該方法包括:獲取第一字符串以及第二字符串;根據第一字符串以及第二字符串,確定第一字符串與第二字符串之間的第一最大公共子串和第二最大公共子串;根據第一最大公共子串和第二最大公共子串分別確定第一字符串與第二字符串之間的第一相速度和第二相似度;根據第一相似度以及第二相似度,確定第一字符串與第二字符串之間的目標相似度。采用本申請,可以提升針對字符串的相似度確定準確度。本申請涉及區(qū)塊鏈技術,如可將從區(qū)塊鏈中獲取第一字符串和第二字符串。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種針對字符串的相似度確定方法、裝置、設備及存儲介質。
背景技術
在自然語言處理領域里,計算字符串的相似度是最基本的問題,對于這個問題,可以分為大的兩類,一種是基于字符串的相似度計算,一種是基于語義的相似度計算?;谧址南嗨贫扔嬎阋话闶怯嬎阏页鰞蓚€字符串中出現的一個最大共同字符部分,然后根據這一個最大公共字符部分計算兩個字符串的編輯距離,從而根據編輯距離計算相似度。基于語義的相似度計算方法主要用到了基于語料庫的方法,這種方法是利用從語料庫中獲取的信息來進行文本相似度計算,但是在實際工業(yè)環(huán)境中依靠這兩種方式計算出的相似度準確度的都有待提升。
發(fā)明內容
本申請實施例提供了一種針對字符串的相似度確定方法、裝置、設備及存儲介質,可以提升針對字符串的相似度確定準確度。
第一方面,本申請實施例提供了一種針對字符串的相似度確定方法,包括:
獲取第一字符串以及第二字符串;
根據所述第一字符串以及所述第二字符串,確定所述第一字符串與所述第二字符串之間的第一最大公共子串;
根據所述第一最大公共子串確定所述第一字符串與所述第二字符串之間的第一相似度;
根據所述第一字符串中除所述第一最大公共子串之外的字符以及所述第二字符串中除所述第一最大公共子串之外的字符,確定所述第一字符串與所述第二字符串之間的第二最大公共子串;
根據所述第二最大公共子串確定所述第一字符串與所述第二字符串之間的第二相似度;
根據所述第一相似度以及所述第二相似度,確定所述第一字符串與所述第二字符串之間的目標相似度。
可選的,所述方法還包括:
從所述第一字符串和所述第二字符串中確定出目標字符串;
所述根據所述第一最大公共子串確定所述第一字符串與所述第二字符串之間的第一相似度,包括:
計算所述第一最大公共子串的長度與所述目標字符串的長度之間的比值;
將所述比值確定為所述第一字符串與所述第二字符串之間的第一相似度。
可選的,所述方法還包括:
從所述第一字符串和所述第二字符串中確定出長度最長的字符串和長度最短的字符串;
計算所述長度最短的字符串的長度與所述長度最長的字符串的長度之間的第一比值;
當所述第一比值大于或等于第一預設值時,執(zhí)行所述根據所述第一字符串以及所述第二字符串,確定所述第一字符串與所述第二字符串之間的第一最大公共子串的步驟。
可選的,所述方法還包括:
當所述第一比值小于所述第一預設值時,將所述第一比值確定為所述第一字符串與所述第二字符串之間的相似度。
可選的,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110695107.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動機器人控制方法、裝置、設備及存儲介質
- 下一篇:可拆卸式閥門保冷裝置





