[發明專利]一種關系表非鍵屬性特征抽取與數據生成方法有效
| 申請號: | 201810511653.4 | 申請日: | 2018-05-25 |
| 公開(公告)號: | CN108920501B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 張瑩;史慧珂;張江偉;宋珂慧;袁曉潔 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 天津耀達律師事務所 12223 | 代理人: | 侯力 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關系 表非鍵 屬性 特征 抽取 數據 生成 方法 | ||
1.一種關系表非鍵屬性特征抽取與數據生成方法,所述方法詳細步驟如下:
第1、對原始數據集進行特征抽取
第1.1、對原始數據集進行分組映射,獲取分組數據集;
將原始數據集非鍵屬性按照數據類型分為類別型和數值型,并對類別型進行一對一的分組映射,對數值型進行離散化分組映射;通過分組映射,將原始數據集轉換為相應的分組數據集;
定義1:分組數據集;定義如下:
分組數據集是指非鍵屬性通過分組映射后的所獲得的數據集,其存儲數據皆為不具有實際意義的自然數值,代表相應屬性下的分組類別;
第1.2、對分組數據集進行特征抽取,獲取相應的特征空間;
定義2:特征空間;定義如下:
特征空間是指方案期望保留的分組數據集上特征的總稱,它包括單屬性頻數分布和兩非鍵屬性頻數的聯合分布;單屬性頻數分布是指分組數據集中單個非鍵屬性分組的頻數分布;而兩非鍵屬性頻數的聯合分布是指分組數據集中任意兩個非鍵屬性之間分組取值組合的頻數分布;
第1.3、對特征空間中兩非鍵屬性間頻數的聯合分布進行相關性度量排序;
定義3:相關性度量;定義如下:
相關性度量是兩非鍵屬性間相關性強弱的評價指標,通過對兩非鍵屬性頻數的聯合分布進行計算可獲取相應的相關性度量;相關性度量的計算方式實際上可看成是一種列聯表中關聯性度量的計算方式;
通過對特征空間中所有聯合分布進行相關性度量來獲取特征空間的相關性度量序列,并以此來指導目標數據集非鍵屬性的生成次序;
第2、對抽取自原始數據集的特征空間進行特征變換
變換抽取得到的特征空間中的分布,使整個特征空間所包含的元組數擴大或縮小;
第3、依照相關性度量序列從變換后的特征空間生成目標數據集
第3.1、目標分組數據集的生成;
采用增量式的生成方式從變換后的特征空間中生成目標分組數據集非鍵屬性的分組序列,目標分組數據集中非鍵屬性的生成次序則依照第1.3步中獲取的相關性度量序列來指導;
第3.2、將目標分組數據集的分組數值反射回實際意義的屬性值。
2.根據權利要求1所述的方法,其特征在于,第2步所述的特征變換階段根據數據生成的最終目標自由選擇不同的處理方式,具體如下:
(1)若要使得目標合成數據集擁有類似于原始數據集的統計特征,可通過將特征空間中的分布按比例放縮的方式實現整體的變換,再將結果進行微調以使特征空間可用于生成目標分組數據集;
(2)若要使得目標合成數據集成為原始數據集隨時間變化的一個未來狀態,可通過使用預測的方式來實現特征空間的特征變換;一種可行的方式是,對原始數據集進行切割,并對每個切割塊進行特征抽取獲取相應的特征空間,再通過對每個分組對進行非線性擬合、預測來實現特征空間的整體特征變換,最后將結果進行微調以使特征空間可用于生成目標分組數據集。
3.根據權利要求1所述的方法,其特征在于,第2步所述的特征變換后的特征空間應滿足如下條件:
(1)任意兩個包含有同一非鍵屬性的兩非鍵屬性頻數的聯合分布中,同一非鍵屬性的頻數分布保持一致;
(2)任意一個特定的非鍵屬性,在任意一個包含有該非鍵屬性的兩非鍵屬性頻數的聯合分布中,其頻數分布與該非鍵屬性的單屬性頻數分布保持一致。
4.根據權利要求1所述的方法,其特征在于,第3步所述的目標分組數據集生成方法的具體流程如下:
目標分組數據集生成采取增量式生成方式,按如下步驟增量式生成非鍵屬性:
(1)新屬性選取:根據相關性度量序列和已生成非鍵屬性集合按照topK思想選取下一個要生成的非鍵屬性,通過將已生成非鍵屬性集合中與下一個非鍵屬性的相關性最強的topK個度量值的和作為依據來選取下一個非鍵屬性,其中K小于等于2;
(2)分組生成:根據topK個非鍵屬性與新非鍵屬性之間的聯合分布和相應的單屬性頻數分布來生成新非鍵屬性的分組序列,并將其合并到已生成的分組數據集中;
分組生成階段方案主要采用三屬性下分組合成算法;當新非鍵屬性是前兩個要生成的非鍵屬性時,直接根據特征空間中的分布合成;當新非鍵屬性是第三個甚至是第四第五個要生成的非鍵屬性時,根據已生成非鍵屬性集合中與新非鍵屬性的相關性最強的topK個非鍵屬性來生成,其中K等于2;
(3)集合更新:更新已生成非鍵屬性集合和相關性度量序列,以方便下一個非鍵屬性的生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810511653.4/1.html,轉載請聲明來源鉆瓜專利網。





