[發明專利]一種物聯網數據相似度處理方法在審
| 申請號: | 201510535354.0 | 申請日: | 2015-08-27 |
| 公開(公告)號: | CN105205107A | 公開(公告)日: | 2015-12-30 |
| 發明(設計)人: | 謝東;肖東;成運 | 申請(專利權)人: | 湖南人文科技學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 417000*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯網 數據 相似 處理 方法 | ||
技術領域
本發明涉及數據處理領域,特別是涉及一種物聯網數據相似度處理方法。
背景技術
自Internet出現以來,互聯網上的WEB頁面的數量就飛速增長著,也恰是由于其這種增長速度,形成了世界上最大的信息資源庫。WEB信息整合技術就是對這一個信息資源庫進行有效處理,整合相關信息,為數據挖掘提供數據方面的支撐,以便更好地應用于專業領域中的信息服務。在當前飛速發展的網絡時代,信息資源日益豐富,WEB信息整合已成為信息時代的重要內容,在多個領域中都有WEB信息整合的應用。
如在物聯網領域中,產品供貨商可以通過多個WEB交易平臺發布產品信息,而買家可以從WEB交易平臺中獲取信息,并通過產品供貨商所發布的信息可以聯系到產品供貨商進行購買;在這一過程中,就涉及到大量數據的處理。但是,由于每個WEB交易平臺對信息的表述方式不盡相同,從而給信息整合帶來了一定的困難。另外,同一個產品供貨商去不同的WEB交易平臺發布同一個產品可能會出現不同的表現形式,其會造成這些WEB產品交易平臺上使用數據爬蟲獲取數據,進而會產生很多重復數據,因此,針對來自不同WEB數據源的、表述形式不一樣的產品數據進行重復數據的清洗是非常有必要的,其是通過機器判斷是否有重復數據的重要保障。
產品數據的清洗過程中,最主要的是清除產品多條記錄中的相似重復記錄,以保證建立一個全面、準確、專業、符合數據質量條件的產品數據庫;此時,就需要對多條記錄進行相似度計算。目前,數據相似度的計算主要是通過一一比對來實現的,其運算速度非常慢,消耗大量的時間成本。
發明內容
鑒于以上所述現有技術的缺陷和各種不足之處,本發明要解決的技術問題在于提供一種能夠節省大量時間成本的物聯網數據相似度處理方法。
為實現上述目的,本發明提供一種物聯網數據相似度處理方法,包括以下步驟:
S1、從WEB交易平臺中獲取多條產品記錄,選出具有多個相同屬性的兩條產品記錄,分別為第一產品記錄和第二產品記錄;
S2、將第一產品記錄的屬性保存在第一數組中,將第二產品記錄的屬性保存在第二數組中;
S3、對第一產品記錄和第二產品記錄的各屬性分別按相應的屬性函數計算相應的屬性相似度值,并將多個屬性的屬性相似度值保存在第三數組中;
S4、根據第一產品記錄和第二產品記錄各屬性的重要程度、并通過權重函數計算各屬性的權重值,并將多個屬性的權重值保存在第四數組中;
S5、結合屬性相似度值的第三數組和權重值的第四數組,通過整體相似度函數計算第一產品記錄和第二產品記錄的整體相似度。
進一步地,所述步驟S3中,屬性函數包括產品別稱匹配策略函數、產品價格轉換匹配策略函數、規范化日期匹配策略函數、規范化產地匹配策略函數和編輯距離算法函數。
優選地,所述步驟S2中,第一產品記錄的屬性按照產品名稱、價格、生產日期、產地的順序先后放入多個第一屬性數組中,多個第一屬性數組構成所述第一數組。
優選地,所述步驟S2中,第二產品記錄的屬性按照產品名稱、價格、生產日期、產地的順序先后放入多個第二屬性數組中,多個第二屬性數組構成所述第二數組。
本發明涉及的一種物聯網數據相似度處理方法具有以下有益效果:
本申請將具有相同屬性的兩條產品記錄按照各自的屬性相似度和屬性權重值進行整體相似度的計算,其處理速度快,計算精度高,從而可以節省大量的時間成本。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,并可依照說明書的內容予以實施,以下以本發明的較佳實施例并配合附圖對本專利進行詳細說明。
附圖說明
圖1為本申請的流程圖。
圖2為本申請中產品別稱匹配策略函數的流程圖。
圖3為本申請中產品價格轉換匹配策略函數的流程圖。
圖4為本申請中規范化日期匹配策略函數的流程圖。
圖5為本申請中規范化產地匹配策略函數的流程圖。
具體實施方式
下面結合附圖對本發明的優選實施例進行詳細介紹。
如圖1所示,本發明提供一種數據相似度處理方法,包括以下步驟:
S1、從WEB交易平臺中獲取多條產品記錄,選出具有多個相同屬性的兩條產品記錄,分別為第一產品記錄A和第二產品記錄B。
S2、將第一產品記錄A的屬性保存在第一數組a[]中,將第二產品記錄B的屬性保存在第二數組b[]中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南人文科技學院,未經湖南人文科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510535354.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種時序數據異常特征的挖掘系統及方法
- 下一篇:一種云平臺數據獲取方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





