[發明專利]基于用戶偏好的數據清洗方法無效
| 申請號: | 200910167659.5 | 申請日: | 2009-09-17 |
| 公開(公告)號: | CN101706791A | 公開(公告)日: | 2010-05-12 |
| 發明(設計)人: | 唐雪飛;佘堃;陳科;汪海良 | 申請(專利權)人: | 成都康賽電子科大信息技術有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/02;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 偏好 數據 清洗 方法 | ||
所屬技術領域
本發明涉及基于用戶偏好的數據清洗方法,特別是在用戶數據分類較多,數據量龐大的情況。
背景技術
目前的數據清洗方法大多是針對某類特定應用域的數據清洗,在設計模式和使用方式等方面都是以“數據”為中心,忽略了“用戶”這個真正的核心,這些方法雖然能夠根據發現的錯誤模式,編制程序或借助于外部標準源文件、數據字典等手段,在一定程度上修正錯誤;但經常須編制復雜的程序或借助于人工干預完成;而且這一系列工作都是針對某一特定行業開發的,沒有通用性。
發明內容
為了克服現有的數據清洗方法不能有效地區分用戶專有數據的不足,本實用新型提供一種數據清洗方法,該數據清洗方法可以自動學習用戶偏好,從而識別用戶數據采用最優數據定位預測的數據分析方法,高效、準確地識別“臟數據”并進行標記。數據清洗服務剔除系統“臟數據”和錯誤數據,并通過底層硬件接口對外接口輸入干凈的數據。
技術方案
基于用戶偏好的數據清洗將數據處理的核心對象從“數據”轉為“用戶”,采用神經網絡算法對用戶行為進行學習和記憶;同時采用先進的中間件技術,完成數據清洗操作。
1.采用K-means模糊聚類分析神經網絡方法,采用半監督學習算法,對用戶行為進行自動學習與記憶,同時對大量不確定的信息進行深度自適應性學習訓練,從而達到對未知語義的自適應分類、聚類、識別,以及對已知語義的透明操作,使系統自動對用戶偏好數據區進行識別和標記,實現智能化用戶偏好定義功能。
2.在數據交換層,利用XML的平臺獨立性和系統可擴展性,在數據處理過程中,對中間數據進行XML解析、標記與存儲,同時對特定用戶偏好相關的敏感數據標簽進行加密和簽名,從而徹底保障數據的完整性和安全性。
3.通過不同的過濾處理元實現術語模型、過程描述文件、共享庫等概念,利用XML實現各個過濾處理元的高度獨立性和系統的可擴展性,很好地彌補了現有數據清洗和災備產品中不具有互操作性的缺點,向用戶提供了一個可視化的流程定義環境。
本發明的有益效果是,在數據清洗過程中始終以用戶數據為核心,達到“以人為本”的數據清洗效果。
附圖說明
圖1系統整體架構
圖2基于K-means算法的一組對象的聚類
圖3用戶偏好學習與標記流程
圖4基于用戶偏好的數據清洗系統流程
圖5最優數據定位預測的K步模糊神經網絡自動機模型
圖6過濾服務元結構
圖7XML管道過濾處理架構
具體實施方式
系統架構如圖1如示。
1.用戶偏好學習與標記系統
用戶偏好學習與標記系統采用K-means模糊聚類分析神經網絡算法實現對用戶行為的學習與記憶,采用大量用戶行為數據作為樣本數據進行訓練,完成用戶偏好的識別,并對偏好數據進行標記。
K-means算法屬于聚類分析的一種,就是將一組物理的或抽象的對象,根據它們之間的相似程度,分為若干組;其中相似的對象構成一組,這一過程就稱為聚類過程。也就是從給定的數據集中搜索數據項之間所存在的有價值聯系。在許多應用中,一個聚類中所有對象常常被當作一個對象來進行處理或分析:
(1)輸入:聚類個數k,以及包含n個數據對象的數據庫;
(2)輸出:滿足方差最小標準的k個聚類;
(3)處理流程:從n個數據對象任意選擇k個對象作為初始聚類中心;根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離,并根據最小距離重新對相應對象進行劃分;重新計算每個(有變化)聚類的均值(中心對象);循環到直到每個聚類不再發生變化為止。
K-means算法接受輸入量k;然后將n個數據對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高,而不同聚類中的對象相似度較小,聚類相似度是利用各聚類中對象的均值所獲得一個/中心對象0(引力中心)來進行計算的。
K-means算法的工作過程說明如下:首先從n個數據對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都康賽電子科大信息技術有限責任公司,未經成都康賽電子科大信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910167659.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





