[發明專利]數據匹配的方法、裝置、電子設備和儲存介質在審
| 申請號: | 201710196456.3 | 申請日: | 2017-03-29 |
| 公開(公告)號: | CN108664494A | 公開(公告)日: | 2018-10-16 |
| 發明(設計)人: | 唐亮 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始數據 匹配字符串 標準詞典 儲存介質 電子設備 矢量迭代 數據匹配 正向 非標準數據 標準數據 大字符串 用戶標準 匹配度 最小字 迭代 匹配 檢索 存儲 | ||
本發明公開了一種數據匹配的方法、裝置、電子設備和儲存介質。該方法包括:以前綴樹的形式存儲由預定的標準數據形成的標準詞典;將原始數據進行切分,得到待匹配字符串;通過所述待匹配字符串與所述標準詞典作比較來計算匹配度;其中,通過正向矢量迭代切分對所述原始數據進行切分,其中,所述正向矢量迭代切分是指對所述原始數據采用從最大字符串到最小字符串的層層迭代檢索的方式進行切分。該方法能夠高效地實現非標準數據與用戶標準數據之間的匹配。
技術領域
本發明涉及計算機技術領域,尤其涉及一種數據匹配的方法、裝置、電子設備和存儲介質。
背景技術
隨著互聯網行業的不斷發展,旅行行業與互聯網行業相結合的發展趨勢在近些年尤為突出。特別是,如酒店、青年旅社、民宿等為旅行者提供住宿的實體已經廣泛地利用互聯網向旅行者提供了越來越多的信息,如酒店的名稱、地址、電話號碼、住宿條件、設施、提供的各項服務等。
然而,在當前的發展現狀中,由于在酒店行業中并沒有標準的數據規范,因此每個酒店的供應商或分銷商的對外API(應用程序界面,Application Program Interface)都是根據其相應地要求被專屬定制的。這就必然導致了各個供應商或分銷商的數據模型很可能是不同的。所以當互聯網公司,特別是與很多供應商和分銷商對接的互聯網公司進行對接時,都需要單獨進行開發,這在整個互聯網酒店領域是一個通用的問題。
目前,大型互聯網公司通常具有其自己的標準基礎數據模型。在與供應商和分銷商對接時,互聯網公司使用其自己的標準數據模型來與每個商家的數據進行匹配。在現有的匹配算法中,通常將待匹配的詞組(數據)作為整體來執行匹配處理,以達到精確查找的目的。
在實現本發明過程中,發明人發現現有的匹配算法中至少存在如下問題:目前并沒有一種高效的方法來實現將商家的原始數據與互聯網公司的標準數據進行匹配的任務。將待匹配的詞語作為整體來執行匹配處理往往難以得到令人滿意的命中結果,因此仍需要大量的人工匹配,導致需要大量的人力成本并且效率低下。
發明內容
有鑒于此,本發明實施例提供一種尤其適用于酒店的數據匹配的方法、裝置、電子設備和存儲介質,能夠高效地實現原始數據與用戶標準數據之間的匹配。
為實現上述目的,根據本發明的一個方面,提供了一種數據匹配的方法。
本發明實施例的一種數據匹配的方法包括:以前綴樹的形式存儲由預定的標準數據形成的標準詞典;將原始數據進行切分,得到待匹配字符串,其中,通過正向矢量迭代切分對所述原始數據進行切分,其中,所述正向矢量迭代切分是指對所述原始數據采用從最大字符串到最小字符串的層層迭代檢索的方式進行切分;通過所述待匹配字符串與所述標準詞典作比較來計算匹配度。
可選地,所述正向矢量迭代切分包括:首先以在所述標準詞典中檢索到的所述原始數據中的最大分割字符串對所述原始數據進行切分,隨后以在所述標準詞典中檢索到的所述待匹配字符串中的最大分割字符串對待匹配字符串進行切分,直至所述待匹配字符串被切分為最小長度的待匹配字符串。
可選地,所述匹配度通過匹配總分來體現,所述匹配總分以如下公式計算:
其中,R為作為所述待匹配字符串的的匹配項的權重,m為每個匹配項的匹配分數,并且k為待匹配字符串的數量。
可選地,所述權重能夠由用戶預先定義。
可選地,所述原始數據能夠包括下述各項中的至少一項:中文字符、字母、數字、符號、圖形。
為實現上述目的,根據本發明的另一方面,提供了一種執行數據匹配的裝置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710196456.3/2.html,轉載請聲明來源鉆瓜專利網。





