[發明專利]用于偏差分析的候選特征的確定在審
| 申請號: | 202111497324.7 | 申請日: | 2021-12-09 |
| 公開(公告)號: | CN115457341A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | P.奧哈拉;M.C.考夫曼;A.班納吉;I.丹佛;A.麥克沙恩 | 申請(專利權)人: | 商業對象軟件有限公司 |
| 主分類號: | G06V10/771 | 分類號: | G06V10/771;G06V10/74;G06V10/764 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 邵亞麗 |
| 地址: | 愛爾蘭*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 偏差 分析 候選 特征 確定 | ||
公開了用于偏差分析的系統和方法。該方法包括:基于與離散值相關聯的連續特征的值,為多個離散特征中的每一個確定離散特征的每個離散值的統計,基于為離散特征的每個離散值確定的統計,為每個離散特征確定第一概要統計,基于為離散特征確定的第一概要統計和為離散特征的每個離散值確定的統計,為每個離散特征確定相異度,基于所確定的相異度確定離散特征的候選離散特征,候選離散特征包括少于所有的離散特征,基于與候選離散特征的每個離散值相關聯的連續特征的值,為候選離散特征中的每一個確定第二概要統計,基于第二概要統計確定候選離散特征中的每一個的偏差分數,以及基于所確定的偏差分數呈現候選離散特征。
技術領域
本公開涉及用于偏差分析的系統和方法。
背景技術
當今的組織以不斷增長的速度收集和存儲大量數據。這些大數據流的示例包括傳感器數據和金融數據。物聯網已大大增加了部署的傳感器數量,由此生成的傳感器數據量已以指數方式增加。金融業生成大量數據來促進預測、模式識別和戰略規劃。
在這些大數據集上執行計算或在這些大數據集內識別模式可能是耗時或者甚至是不可行的。現代數據分析試圖幫助人類有效地理解收集的數據。例如,數據挖掘使用機器學習和/或統計技術來發現存儲在數據庫、數據倉庫或其他信息存儲庫中的大量數據內的潛在有用的模式。
偏差分析是數據挖掘的一種類型,其可以包括確定數據集的所選擇的連續特征(例如,銷售額)和離散特征(例如,顏色、類型)之間的偏差。例如,偏差分析可以確定離散特征(顏色)的所有離散值(藍色、紅色、綠色)相對于連續特征(銷售額)是否以大致相似的方式表現。如果不是,偏差分析還可以指示任何一個離散值偏離標準的程度(例如,藍色比紅色或綠色對銷售額的貢獻更強)。可以對若干個離散特征中的每一個相對于同一連續特征執行偏差分析,以便確定哪個離散特征包括偏差最大的離散值。
挖掘大數據集的所選擇的連續特征和離散特征之間的偏差關系在計算上可能很昂貴,特別是在該數據集包含許多離散特征,每個離散特征包含許多離散值的情況下。期望用于執行偏差分析的改進系統,其比傳統系統需要更少的計算資源要求,同時產生合適質量的偏差分析。
發明內容
根據本公開的一個實施例,一種用于偏差分析的系統,包括:存儲器,存儲處理器可執行的程序代碼;以及處理單元,執行處理器可執行的程序代碼,以使系統:接收包括第一連續特征和多個離散特征的數據,第一連續特征與多個連續值相關聯,并且多個離散特征中的每一個與多個離散值相關聯;基于與離散值相關聯的連續特征的值,為多個離散特征中的每一個確定離散特征的每個離散值的統計;基于為離散特征的每個離散值確定的統計,為每個離散特征確定第一概要統計;基于為離散特征確定的第一概要統計和為離散特征的每個離散值確定的統計,為每個離散特征確定相異度;基于所確定的相異度確定多個離散特征中的候選離散特征,所述候選離散特征包括少于所有的多個離散特征;基于與候選離散特征的每個離散值相關聯的連續特征的值,為候選離散特征中的每一個確定第二概要統計;基于第二概要統計確定候選離散特征中的每一個的偏差分數;以及基于所確定的偏差分數發送候選離散特征以便顯示。
根據本公開的一個實施例,一種用于偏差分析的方法,包括:接收包括第一連續特征和多個離散特征的數據,第一連續特征與多個連續值相關聯,并且多個離散特征中的每一個與多個離散值相關聯;基于與離散值相關聯的連續特征的值,為多個離散特征中的每一個確定離散特征的每個離散值的統計;基于為離散特征的每個離散值確定的統計,為每個離散特征確定第一概要統計;基于為離散特征確定的第一概要統計和為離散特征的每個離散值確定的統計,為每個離散特征確定相異度;基于所確定的相異度確定多個離散特征中的候選離散特征,所述候選離散特征包括少于所有的多個離散特征;基于與候選離散特征的每個離散值相關聯的連續特征的值,為候選離散特征中的每一個確定第二概要統計;基于第二概要統計確定候選離散特征中的每一個的偏差分數;以及基于所確定的偏差分數發送候選離散特征以便顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于商業對象軟件有限公司,未經商業對象軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111497324.7/2.html,轉載請聲明來源鉆瓜專利網。





