[發(fā)明專利]酒店信息的聚類匹配方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710547456.3 | 申請日: | 2017-07-06 |
| 公開(公告)號: | CN107291939B | 公開(公告)日: | 2020-08-21 |
| 發(fā)明(設(shè)計)人: | 何鳴;馮兆龍;胡泓;陳瑞亮 | 申請(專利權(quán))人: | 攜程計算機(jī)技術(shù)(上海)有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06Q50/12 |
| 代理公司: | 上海弼興律師事務(wù)所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 酒店 信息 匹配 方法 系統(tǒng) | ||
本發(fā)明公開了一種酒店信息的聚類匹配方法及系統(tǒng),其中所述聚類匹配方法包括:S1、獲取待聚類酒店的至少一酒店特征信息和對比酒店的至少一酒店特征信息;S2、計算所述待聚類酒店的酒店特征信息與所述對比酒店的酒店特征信息的相似度;S3、計算所述待聚類酒店與所述對比酒店的酒店相似度。本發(fā)明彌補(bǔ)了在海量級酒店信息庫中,傳統(tǒng)匹配方法匹配酒店時,效率低,錯誤率高的缺陷。通過本聚類匹配方法,使用戶能更快、更準(zhǔn)確地在酒店信息庫中找到相似度高的酒店,并聚類匹配到同一家酒店。
技術(shù)領(lǐng)域
本發(fā)明涉及酒店數(shù)據(jù)管理領(lǐng)域,特別是涉及一種酒店信息的聚類匹配方法及系統(tǒng)。
背景技術(shù)
現(xiàn)代社會已經(jīng)進(jìn)入大數(shù)據(jù)、云計算時代,互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息。但這些海量的數(shù)據(jù)中也存在大量的重復(fù)冗余或者是相似相近的信息,同時信息中還夾雜著不少干擾信息。為了獲取信息之間的關(guān)系,需要通過聚類分析,找到相關(guān)相近信息,然后可以進(jìn)行聚類或是去重,把相關(guān)相似的信息歸為同一類處理。
現(xiàn)有的在線旅游網(wǎng)站在匹配酒店時,同樣存在上述的問題,目前在酒店信息庫中,匹配酒店時所采用的相似度算法都是基于“分詞+詞庫+字符”相似度的規(guī)則進(jìn)行匹配。而實(shí)際生活中,酒店信息庫數(shù)據(jù)量非常大,傳統(tǒng)的匹配方法所使用相似性算法無法勝任在大數(shù)據(jù)條件下的聚類,算法運(yùn)行時間按周計算而無法接受。
此外,現(xiàn)有的酒店信息庫存在酒店特征信息缺少或錯誤,酒店數(shù)據(jù)大量的重復(fù)冗余,多家酒店共有相同酒店特征信息,以及人為因素引入的臟數(shù)據(jù)或異常數(shù)據(jù)等情況。傳統(tǒng)的匹配方法,匹配結(jié)果錯誤率高。
所以傳統(tǒng)的匹配方法,無法滿足在海量級的酒店信息庫中,特別是酒店信息缺少和錯誤的情況下,查找出與待匹配的酒店相同或相似的酒店。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中傳統(tǒng)聚類和去重方法無法勝任在大數(shù)據(jù)條件下的酒店信息庫中聚類的缺陷,提供一種酒店信息的聚類匹配方法及系統(tǒng)。
本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題:
一種酒店信息的聚類匹配方法,所述聚類匹配方法包括:
S1、獲取待聚類酒店的至少一酒店特征信息和對比酒店的至少一酒店特征信息;
S2、計算所述待聚類酒店的酒店特征信息與所述對比酒店的酒店特征信息的相似度;
S3、計算所述待聚類酒店與所述對比酒店的酒店相似度:
n為酒店特征信息種類的數(shù)量;
i為1至n的正整數(shù);
Si為步驟S2中,第i個所述待聚類酒店的酒店特征信息與所述對比酒店的酒店特征信息的相似度;
Wi為Si對應(yīng)的權(quán)重;
Shotel為所述待聚類酒店與所述對比酒店的酒店相似度。
較佳地,S1還包括:
建立酒店信息庫,所述酒店信息庫中包括若干酒店的酒店特征信息以及酒店特征信息索引;
根據(jù)所述待聚類酒店的酒店特征信息,在所述酒店信息庫中檢索所述酒店特征信息索引,挑選至少一預(yù)匹配酒店,形成預(yù)匹配酒店集合;
將所述預(yù)匹配酒店集合中的每個預(yù)匹配酒店分別作為所述對比酒店。
較佳地,S1中的所述酒店特征信息包括酒店名稱;
S2包括:計算所述待聚類酒店的酒店名稱與所述對比酒店的酒店名稱的相似度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于攜程計算機(jī)技術(shù)(上海)有限公司,未經(jīng)攜程計算機(jī)技術(shù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710547456.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





