[發(fā)明專利]數(shù)據(jù)融合方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201610056060.4 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740380B | 公開(公告)日: | 2019-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 范春曉;張駿;趙天霖;吳岳辛;盧誠知;肖傲 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06Q30/06 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 楊文娟;黃健 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 匹配 相似度 基準(zhǔn)特征 商品數(shù)據(jù) 數(shù)據(jù)融合 參數(shù)相似度 融合數(shù)據(jù) 數(shù)據(jù)集中 數(shù)據(jù)集 準(zhǔn)確率 沖突 | ||
本發(fā)明提供一種數(shù)據(jù)融合方法及系統(tǒng),其中,該方法包括:獲取商品數(shù)據(jù)對應(yīng)的電商數(shù)據(jù)集,根據(jù)商品基準(zhǔn)特征,計(jì)算該電商數(shù)據(jù)集中商品數(shù)據(jù)對應(yīng)商品之間的第一商品相似度,并將大于設(shè)定相似度的一組商品作為匹配商品,得到第一匹配商品列表,根據(jù)匹配商品的各級參數(shù),計(jì)算匹配商品中每級參數(shù)之間的參數(shù)相似度,進(jìn)而計(jì)算出匹配商品之間的第二商品相似度,獲得第二匹配商品列表,若第二匹配商品列表相對于第一匹配商品列表沒有變化,則解決該第二匹配商品列表中各商品之間存在的各級參數(shù)沖突,得到融合數(shù)據(jù)。本發(fā)明的技術(shù)方案,通過綜合利用商品基準(zhǔn)特征和商品的各級參數(shù)對商品進(jìn)行多次匹配,匹配的準(zhǔn)確率高、速度快、效率高。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)融合方法及系統(tǒng)。
背景技術(shù)
隨著科學(xué)技術(shù)的不斷發(fā)展,足不出戶便可購到所需物品的網(wǎng)絡(luò)購物方式變得越來越流行,而電商網(wǎng)站是網(wǎng)絡(luò)購物的載體,其上承載了大量商品的相關(guān)信息,人們的網(wǎng)購活動(dòng)主要在電商網(wǎng)站上完成。然而,在不同的電商網(wǎng)站上可能出現(xiàn)同一商品用不同參數(shù)進(jìn)行描述的現(xiàn)象,即使在同一網(wǎng)站,由于分類不同或由不同商家售賣,也會(huì)出現(xiàn)同一商品用不同參數(shù)進(jìn)行描述的現(xiàn)象。因此,如果能將多個(gè)電商網(wǎng)站的數(shù)據(jù)進(jìn)行融合,也即,將不同電商網(wǎng)站的相同商品和商品參數(shù)描述對應(yīng)起來,并用統(tǒng)一的語言和格式進(jìn)行存儲(chǔ),不僅可以對各個(gè)電商網(wǎng)站的商品數(shù)據(jù)做聯(lián)合分析,而且還可以消除單個(gè)電商網(wǎng)站出現(xiàn)的參數(shù)描述錯(cuò)誤的情況。
目前,現(xiàn)有電商網(wǎng)站數(shù)據(jù)融合的方法可以總結(jié)為:首先從不同的電商網(wǎng)站上提取商品型號和商品標(biāo)題名,然后分別將各電商網(wǎng)站上的商品型號和商品標(biāo)題名進(jìn)行一一匹配,最后將匹配得到的各商品數(shù)據(jù)進(jìn)行融合,進(jìn)而解決同一商品在不同電商網(wǎng)站上商品型號或商品參數(shù)描述不一致的問題。
然而,現(xiàn)有電商網(wǎng)站數(shù)據(jù)融合的方法只能對商品型號明確和商品標(biāo)題名命名規(guī)范的商品進(jìn)行匹配,可用的匹配參數(shù)較少,無法對商品細(xì)節(jié)的匹配進(jìn)行控制,因此,匹配的商品數(shù)量較少、類型有限,致使出現(xiàn)匹配錯(cuò)誤的概率高,效率低。
發(fā)明內(nèi)容
本發(fā)明提供一種數(shù)據(jù)融合方法及系統(tǒng),以解決現(xiàn)有數(shù)據(jù)融合方法匹配商品數(shù)量較少、類型有限、可用參數(shù)較少、匹配錯(cuò)誤概率高、效率低的問題。
本發(fā)明提供的一種數(shù)據(jù)融合方法,包括:
獲取多個(gè)電商網(wǎng)站上的商品數(shù)據(jù),得到電商數(shù)據(jù)集;
根據(jù)商品基準(zhǔn)特征,分別計(jì)算所述電商數(shù)據(jù)集中多個(gè)商品數(shù)據(jù)對應(yīng)商品之間的第一商品相似度;
將所述第一商品相似度大于設(shè)定相似度的一組商品作為匹配商品,得到第一匹配商品列表;
根據(jù)所述匹配商品的各級參數(shù),計(jì)算所述匹配商品中每級參數(shù)之間的參數(shù)相似度,得到參數(shù)相似度列表;
根據(jù)所述參數(shù)相似度列表中的各參數(shù)相似度,計(jì)算出所述匹配商品之間的第二商品相似度;
根據(jù)所述第二商品相似度與所述設(shè)定相似度之間的關(guān)系,得到第二匹配商品列表;
判斷所述第二匹配商品列表相對于所述第一匹配商品列表是否發(fā)生變化;
若是,返回執(zhí)行根據(jù)所述匹配商品的各級參數(shù),計(jì)算所述匹配商品中每級參數(shù)之間的參數(shù)相似度;
若否,解決所述第二匹配商品列表中各商品之間存在的各級參數(shù)沖突,得到融合數(shù)據(jù)。
本發(fā)明還提供的一種數(shù)據(jù)融合系統(tǒng),包括:
獲取模塊,用于獲取多個(gè)電商網(wǎng)站上的商品數(shù)據(jù),得到電商數(shù)據(jù)集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610056060.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 相似度計(jì)算設(shè)備、相似度計(jì)算方法及程序
- 組織相似度圖
- 相似度檢測裝置
- 圖像處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 圖像處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 數(shù)據(jù)處理方法、數(shù)據(jù)處理設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 相似度確定方法和相似度確定裝置
- 文本相似度最佳閾值自動(dòng)尋找及優(yōu)化方法及裝置
- 圖像分析裝置及圖像分析方法
- 一種基于圖像塊特征的目標(biāo)跟蹤方法及跟蹤系統(tǒng)
- 圖像模糊度估計(jì)方法
- 基于視覺顯著特征的圖像配準(zhǔn)方法
- 異常流量的檢測方法及裝置、防御Web攻擊的方法和裝置
- 一種音頻識別方法及設(shè)備、存儲(chǔ)介質(zhì)
- 用于神經(jīng)網(wǎng)絡(luò)的注意力特征獲取方法、裝置及存儲(chǔ)介質(zhì)
- 攝像機(jī)畫面處理方法及攝像機(jī)
- 一種用戶行為價(jià)值評估模型的生成方法、裝置及設(shè)備
- 相機(jī)的標(biāo)定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)同步方法及裝置
- 商品數(shù)據(jù)的讀取方法、裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種商品數(shù)據(jù)的處理方法、系統(tǒng)、服務(wù)器和存儲(chǔ)介質(zhì)
- 商品數(shù)據(jù)的處理方法、裝置及設(shè)備
- 數(shù)據(jù)處理方法、裝置及存儲(chǔ)介質(zhì)
- 有效價(jià)簽推送方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種商品信息的更新方法及裝置
- 商品數(shù)據(jù)的處理方法、裝置及電子設(shè)備
- 一種福利商品選擇方法及系統(tǒng)
- 商品數(shù)據(jù)更新方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)





