[發明專利]數據處理方法及裝置有效
| 申請號: | 202011044074.7 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112269904B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 何旭;王國賽 | 申請(專利權)人: | 華控清交信息科技(北京)有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F21/60;G06F21/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
1.一種數據處理方法,其特征在于,用于確定密文的字符串數組包括的所有字符串中,與密文的目標字符串匹配的字符串,所述方法包括:
獲取密文的目標字符串和字符串數組;
基于密文計算所述目標字符串與所述字符串數組中的每個待匹配字符串的相似度值,得到相似度數組;
通過密文比較操作,確定所述相似度數組中相似度值大于預設的密文相似度閾值的字符串的索引;
將根據所述索引從所述字符串數組中提取到的字符串,作為所述目標字符串匹配到的字符串;
所述計算所述目標字符串與所述字符串數組中的每個待匹配字符串的密文相似度值,包括:
獲取所述目標字符串與所述待匹配字符串之間的文本距離;
根據所述目標字符串與所述待匹配字符串之間的文本距離,確定所述目標字符串與所述待匹配字符串的相似度值;
在所述文本距離為編輯距離的情況下,所述獲取所述目標字符串與所述待匹配字符串之間的文本距離,包括:
獲取所述目標字符串的字符長度n,以及所述待匹配字符串的字符長度m;
針對所述待匹配字符串,創建維度的初始矩陣,所述初始矩陣的每個元素初始值為0;
將位于所述初始矩陣的首行、首列上的元素設定為從0開始的等差數組,且所述等差數組的公差為1;
從所述初始矩陣的第二行、第二列開始,依次計算出所述初始矩陣中除首行、首列上的元素之外的其他元素的值;
其中,每個所述其他元素的值是根據與所述其他元素左側相鄰的第一元素、與所述其他元素上側相鄰的第二元素、與所述其他元素左上側相鄰的第三元素計算得到的;
將位于所述初始矩陣右下方角點位置的元素的值,確定為所述目標字符串與所述待匹配字符串之間的編輯距離。
2.根據權利要求1所述的方法,其特征在于,所述文本距離包括:Dice距離、Jaccard距離、編輯距離、漢明距離中的任意一種。
3.根據權利要求1所述的方法,其特征在于,
在確定所述第一元素與所述第二元素相等的情況下,每個所述其他元素的值為如下三者中的最小值:所述第一元素的值與1的加和結果、所述第二元素的值與1的加和結果、所述第三元素的值;
在確定所述第一元素與所述第二元素不相等的情況下,每個所述其他元素的值為如下三者中的最小值:所述第一元素的值與1的加和結果、所述第二元素的值與1的加和結果、所述第三元素的值與1的加和結果。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
獲取所述第一元素的第一字符長度j,以及所述第二元素的第二字符長度k;
將所述第一元素轉換為維度的第一矩陣,以及將所述第二元素轉換為維度的第二矩陣;
對所述第一矩陣和第二矩陣進行矩陣比較操作,得到維度的比較結果矩陣;
根據所述比較結果矩陣,確定所述第一元素和所述第二元素相等,或所述第一元素和所述第二元素不相等。
5.根據權利要求1所述的方法,其特征在于,所述從所述初始矩陣的第二行、第二列開始,依次計算出所述初始矩陣中除首行、首列上的元素之外的其他元素的值,包括:
從所述初始矩陣的左上角至右下角的對角線的左上角一端開始,按照目標斜線與所述左上角一端之間的距離由近到遠的順序,依次計算處于每個目標斜線上的其他元素的值,所述目標斜線為與所述對角線相交的斜線。
6.根據權利要求1所述的方法,其特征在于,在所述獲取密文的目標字符串和字符串數組之后,所述方法還包括:
將所述目標字符串和所述字符串數組中的所有字符統一轉換為大寫或統一轉換為小寫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華控清交信息科技(北京)有限公司,未經華控清交信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011044074.7/1.html,轉載請聲明來源鉆瓜專利網。





