[發明專利]符合泊松分布的有序多分類變量的數據規格化方法在審
| 申請號: | 201810281245.4 | 申請日: | 2018-04-02 |
| 公開(公告)號: | CN108536794A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 李娜;楊美紅;李士鋒;曾云輝;趙志剛;葛菁;孫占全 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心);山東省公安廳 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據規格化 泊松分布 分類變量 最近鄰分類 對象距離 神經網絡 數據樣本 挖掘算法 自然編碼 規格化 聚類 應用 樣本 | ||
本發明的符合泊松分布的有序多分類變量的數據規格化方法,設數據樣本的屬性A符合泊松分布,屬性A的m個類別經自然編碼后的原始值分別為v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,樣本中屬性A的總數量記為N,屬性A中類別k下的數量記為nk;有序多分類變量的屬性A規格化后的數據值v′k通過公式(1)進行求取:其中,1≤k≤m,為屬性A中m個類別原始值的均值,其通過如下公式進行求取。本發明的數據規格化方法,使得處理后的變量可應用在如神經網絡、最近鄰分類、聚類等基于對象距離的挖掘算法中,有益效果顯著,適于應用推廣。
技術領域
本發明涉及一種數據規格化方法,更具體的說,尤其涉及一種的符合泊松分布的有序多分類變量的數據規格化方法。
背景技術
數據規格化是數據預處理的基本過程之一。在醫療、警務、海洋等大數據應用背景下,經常遇到有序多分類變量。這些變量不符合正態分布,使用零均值等現有常規的數據規格化方法,會影響數據挖掘算法的效果。本發明專利對符合泊松分布的有序多分類變量進行分析,有針對性的提出新的數據規格化計算方法,使該類數據規格化效果更好。
現實世界數據庫中常常包含許多不完整、不一致、冗余或含有噪聲、異常值的數據,因此數據預處理是數據挖掘和知識發現過程中必不可少的重要步驟。數據預處理,指通過數據清洗、數據集成、數據轉換、數據規約等方法步驟,為數據挖掘的內核算法提供更有針對性的可用數據,從而有效提高數據挖掘的效率和質量。數據預處理過程之一,數據轉換(data transformation),主要是對數據進行規格化(normalization)操作,有時也稱歸一化。
數據規格化就是將一個屬性取值范圍投射到一個特定范圍之內,以消除數值型屬性因大小不一或量綱不同而造成的挖掘結果的偏差。在正式進行數據挖掘之前,尤其是使用基于對象距離的挖掘算法時,如神經網絡、最近鄰分類、聚類等,必須進行數據規格化。采用規格化后的數據不僅有助于確保數據挖掘的正確性,消除因屬性取值范圍不同而導致對數據挖掘結果的影響,還有助于提高挖掘算法的速度和效率。
目前數據規格化方法包括:最大最小規格化方法、零均值規格化方法、十基數變換規格化方法、非線性變換規格化方法等。十基數變換規格化方法,通過移動屬性值的小數點位置來進行數據規格化,適用于因量綱數量級影響數據挖掘的情況。非線性變換規格化方法通過log、正切等數學函數進行數據規格化,適用于數據分布符合非線性函數曲線的情況。實際應用中被經常使用的規格化方法是最大最小規格化方法、零均值規格化方法,在常用的語言程序(如Matlab、R)或機器學習庫(如scikit-learn)中均有函數可方便實現。
發明內容
本發明為了克服上述技術問題的缺點,提供了一種符合泊松分布的有序多分類變量的數據規格化方法。
本發明的符合泊松分布的有序多分類變量的數據規格化方法,設數據樣本的屬性A符合泊松分布,屬性A具有m個類別,屬性A的m個類別經自然編碼后的原始值分別為v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即屬性A的原始值為m個正整數的集合;樣本中屬性A的總數量記為N,屬性A中類別k下的數量記為nk,1≤k≤m,則滿足
其特征在于,有序多分類變量的屬性A規格化后的數據值vk'通過公式(1)進行求取:
其中,1≤k≤m,為屬性A中m個類別原始值的均值,其通過如下公式進行求取:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心);山東省公安廳,未經山東省計算中心(國家超級計算濟南中心);山東省公安廳許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810281245.4/2.html,轉載請聲明來源鉆瓜專利網。





