[發明專利]數據清理和標準化以及地理編碼方法有效
| 申請號: | 201480051206.5 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN105580003B | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 伊高爾·羅伊特布拉特;喬納森·霍爾丹 | 申請(專利權)人: | 快捷四通有限公司 |
| 主分類號: | G06F17/20 | 分類號: | G06F17/20;G06F16/29;G06F5/00;G09B29/10 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;王艷春 |
| 地址: | 加拿大*** | 國省代碼: | 加拿大;CA |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 清理 標準化 以及 地理 編碼 方法 | ||
1.一種通過計算裝置執行的方法,所述計算裝置包括處理器和用于存儲可執行指令的存儲器,所述處理器執行所述指令以實施所述方法,所述方法包括:
接收字符的兩個多片段集合,所述字符的兩個多片段集合中的每個包括多個片段,所述片段中的每個包括格式;
通過以下操作清理字符的兩個多片段集合中的每個:
如果片段的格式未處于標準化格式,將字符的多片段集合的多個片段中的片段轉化成標準化格式;以及
通過根據轉化的片段和未轉化的片段建立字符的連續字符串,將所述字符的兩個多片段集合中的每個縮?。灰约?/p>
利用字符的清理后的多片段集合計算距離分數,所述距離分數表示所述字符的清理后的多片段集合中的字符之間的差異。
2.根據權利要求1所述的方法,其中所述清理還包括將非字母數字字符從所述多個片段中除去。
3.根據權利要求1所述的方法,其中所述清理還包括對于所述多個片段中的每個將大寫字符轉化成小寫字符。
4.根據權利要求1所述的方法,其中所述多個片段中的至少一個為第一語言,并且所述多個片段中的至少一個為第二語言。
5.根據權利要求1所述的方法,其中計算所述距離分數包括計算用于所述字符的清理后的多片段集合的編輯距離。
6.根據權利要求5所述的方法,其中計算所述距離分數包括計算用于所述字符的清理后的多片段集合的標準化編輯距離NLD,其中所述標準化編輯距離利用下式計算:
NLD=1-(LD1-abs([LS1]-[LS2]))/min([LD1],[LS2]),
其中LS1是所述字符的清理后的多片段集合中的第一字符串的長度,LS2是所述字符的清理后的多片段集合中的第二字符串的長度,并且LD1是所述字符的清理后的多片段集合的編輯距離。
7.根據權利要求6所述的方法,進一步包括將所述NLD轉化成百分比分數。
8.根據權利要求1所述的方法還包括:
通過以下操作根據所述字符的兩個多片段集合中的第一多片段集合建立字符的多個置換的多片段集合:
將所述字符的兩個多片段集合中的所述第一多片段集合的多個片段中的片段的字符重新排序,以建立置換的片段;
清理字符的成對的多片段集合,其中所述字符的成對的多片段集合包括所述多個置換的多片段集合與所述字符的兩個多片段中的第二多片段集合的各種組合;
計算用于所述字符的成對的多片段集合的標準化編輯距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于快捷四通有限公司,未經快捷四通有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480051206.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





