[發明專利]文本比較方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201910297625.1 | 申請日: | 2019-04-15 |
| 公開(公告)號: | CN110147429B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 余寧 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F16/33 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 于亭 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 比較 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及大數據領域,本申請公開了一種文本比較方法、裝置、計算機設備和存儲介質,所述方法包括:獲取第一文本及第二文本,將所述第一文本及所述第二文本分別轉換成單行文字,并將轉換后的所述第一文本及所述第二文本分別映射到X軸和Y軸;對在X軸上的所述第一文本及在Y軸上的所述第二文本進行遍歷查詢,獲取所述第一文本與所述第二文本中相同文字的匹配點信息;根據所述第一文本與所述第二文本中相同文字的匹配點信息進行統計,獲取文本比較結果。本申請通過將待比較文本映射到二維平面,并根據最短相同字符間的最短距離找出文本之間的相同字符,提高了文本比較的效率,降低了文本比較的復雜度。
技術領域
本申請涉及大數據領域,特別涉及一種文本比較方法、裝置、計算機設備和存儲介質。
背景技術
在日常應用中,文本比較是一個比較常見的問題,應用場景也比較廣泛,如論文比對等。文本比較的核心就是比較兩個給定的文本(可以是字節流等)之間的差異。目前,主流的比較文本之間的差異主要有兩大類。一類是基于編輯距離(Edit?Distance)的,例如LD算法。一類是基于最長公共子串的(Longest?Common?Subsequence),例如Needleman/Wunsch算法等。但是以上算法都比較復雜,且耗費資源嚴重,效率低下。
發明內容
本申請的目的在于針對現有技術的不足,提供一種文本比較方法、裝置、計算機設備和存儲介質,通過將待比較文本映射到二維平面,并根據最短相同字符間的最短距離找出文本之間的相同字符,提高了文本比較的效率,降低了文本比較的復雜度。
為達到上述目的,本申請的技術方案提供一種文本比較方法、裝置、計算機設備和存儲介質。
本申請公開了一種文本比較方法,包括以下步驟:
獲取第一文本及第二文本,將所述第一文本及所述第二文本分別轉換成單行文字,并將轉換后的所述第一文本及所述第二文本分別映射到X軸和Y軸;
對在X軸上的所述第一文本及在Y軸上的所述第二文本進行遍歷查詢,獲取所述第一文本與所述第二文本中相同文字的匹配點信息;
根據所述第一文本與所述第二文本中相同文字的匹配點信息進行統計,獲取文本比較結果。
較佳地,所述將轉換后的所述第一文本及所述第二文本分別映射到X軸和Y軸,包括:
將轉換后的所述第一文本映射到X軸的任一象限,將轉換后的所述第二文本映射到Y軸的與所述第一文本相同的象限;
將轉換后的所述第一文本的第一個文字對應X軸所屬象限上的任一個坐標點,將轉換后的所述第二文本的第一個文字對應Y軸所屬象限上的任一個坐標點。
較佳地,所述對在X軸上的所述第一文本及在Y軸上的所述第二文本進行遍歷查詢,獲取所述第一文本與所述第二文本中相同文字的匹配點信息,包括:
對在X軸上的所述第一文本及在Y軸上的所述第二文本進行遍歷查詢,獲取第一匹配點信息;
根據所述第一匹配點信息獲取遍歷區域,并在所述遍歷區域上對所述第一文本及所述第二文本進行遍歷查詢,獲取其余匹配點信息。
較佳地,所述對在X軸上的所述第一文本及在Y軸上的所述第二文本進行遍歷查詢,獲取第一匹配點信息,包括:
對在X軸上的所述第一文本及在Y軸上的所述第二文本進行遍歷查詢,獲取所述第一文本與所述第二文本中相同文字對應的坐標點;
在所述相同文字對應的坐標點中查詢與原點距離最近的坐標點,將所述與原點距離最近的坐標點標記為第一匹配點。
較佳地,所述根據所述第一匹配點信息獲取遍歷區域,并在所述遍歷區域上對所述第一文本及所述第二文本進行遍歷查詢,獲取其余匹配點信息,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910297625.1/2.html,轉載請聲明來源鉆瓜專利網。





