[發(fā)明專利]用于偏差分析的候選特征的確定在審
| 申請?zhí)枺?/td> | 202111497324.7 | 申請日: | 2021-12-09 |
| 公開(公告)號: | CN115457341A | 公開(公告)日: | 2022-12-09 |
| 發(fā)明(設計)人: | P.奧哈拉;M.C.考夫曼;A.班納吉;I.丹佛;A.麥克沙恩 | 申請(專利權)人: | 商業(yè)對象軟件有限公司 |
| 主分類號: | G06V10/771 | 分類號: | G06V10/771;G06V10/74;G06V10/764 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 邵亞麗 |
| 地址: | 愛爾蘭*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 偏差 分析 候選 特征 確定 | ||
公開了用于偏差分析的系統(tǒng)和方法。該方法包括:基于與離散值相關聯(lián)的連續(xù)特征的值,為多個離散特征中的每一個確定離散特征的每個離散值的統(tǒng)計,基于為離散特征的每個離散值確定的統(tǒng)計,為每個離散特征確定第一概要統(tǒng)計,基于為離散特征確定的第一概要統(tǒng)計和為離散特征的每個離散值確定的統(tǒng)計,為每個離散特征確定相異度,基于所確定的相異度確定離散特征的候選離散特征,候選離散特征包括少于所有的離散特征,基于與候選離散特征的每個離散值相關聯(lián)的連續(xù)特征的值,為候選離散特征中的每一個確定第二概要統(tǒng)計,基于第二概要統(tǒng)計確定候選離散特征中的每一個的偏差分數(shù),以及基于所確定的偏差分數(shù)呈現(xiàn)候選離散特征。
技術領域
本公開涉及用于偏差分析的系統(tǒng)和方法。
背景技術
當今的組織以不斷增長的速度收集和存儲大量數(shù)據(jù)。這些大數(shù)據(jù)流的示例包括傳感器數(shù)據(jù)和金融數(shù)據(jù)。物聯(lián)網(wǎng)已大大增加了部署的傳感器數(shù)量,由此生成的傳感器數(shù)據(jù)量已以指數(shù)方式增加。金融業(yè)生成大量數(shù)據(jù)來促進預測、模式識別和戰(zhàn)略規(guī)劃。
在這些大數(shù)據(jù)集上執(zhí)行計算或在這些大數(shù)據(jù)集內識別模式可能是耗時或者甚至是不可行的。現(xiàn)代數(shù)據(jù)分析試圖幫助人類有效地理解收集的數(shù)據(jù)。例如,數(shù)據(jù)挖掘使用機器學習和/或統(tǒng)計技術來發(fā)現(xiàn)存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息存儲庫中的大量數(shù)據(jù)內的潛在有用的模式。
偏差分析是數(shù)據(jù)挖掘的一種類型,其可以包括確定數(shù)據(jù)集的所選擇的連續(xù)特征(例如,銷售額)和離散特征(例如,顏色、類型)之間的偏差。例如,偏差分析可以確定離散特征(顏色)的所有離散值(藍色、紅色、綠色)相對于連續(xù)特征(銷售額)是否以大致相似的方式表現(xiàn)。如果不是,偏差分析還可以指示任何一個離散值偏離標準的程度(例如,藍色比紅色或綠色對銷售額的貢獻更強)。可以對若干個離散特征中的每一個相對于同一連續(xù)特征執(zhí)行偏差分析,以便確定哪個離散特征包括偏差最大的離散值。
挖掘大數(shù)據(jù)集的所選擇的連續(xù)特征和離散特征之間的偏差關系在計算上可能很昂貴,特別是在該數(shù)據(jù)集包含許多離散特征,每個離散特征包含許多離散值的情況下。期望用于執(zhí)行偏差分析的改進系統(tǒng),其比傳統(tǒng)系統(tǒng)需要更少的計算資源要求,同時產(chǎn)生合適質量的偏差分析。
發(fā)明內容
根據(jù)本公開的一個實施例,一種用于偏差分析的系統(tǒng),包括:存儲器,存儲處理器可執(zhí)行的程序代碼;以及處理單元,執(zhí)行處理器可執(zhí)行的程序代碼,以使系統(tǒng):接收包括第一連續(xù)特征和多個離散特征的數(shù)據(jù),第一連續(xù)特征與多個連續(xù)值相關聯(lián),并且多個離散特征中的每一個與多個離散值相關聯(lián);基于與離散值相關聯(lián)的連續(xù)特征的值,為多個離散特征中的每一個確定離散特征的每個離散值的統(tǒng)計;基于為離散特征的每個離散值確定的統(tǒng)計,為每個離散特征確定第一概要統(tǒng)計;基于為離散特征確定的第一概要統(tǒng)計和為離散特征的每個離散值確定的統(tǒng)計,為每個離散特征確定相異度;基于所確定的相異度確定多個離散特征中的候選離散特征,所述候選離散特征包括少于所有的多個離散特征;基于與候選離散特征的每個離散值相關聯(lián)的連續(xù)特征的值,為候選離散特征中的每一個確定第二概要統(tǒng)計;基于第二概要統(tǒng)計確定候選離散特征中的每一個的偏差分數(shù);以及基于所確定的偏差分數(shù)發(fā)送候選離散特征以便顯示。
根據(jù)本公開的一個實施例,一種用于偏差分析的方法,包括:接收包括第一連續(xù)特征和多個離散特征的數(shù)據(jù),第一連續(xù)特征與多個連續(xù)值相關聯(lián),并且多個離散特征中的每一個與多個離散值相關聯(lián);基于與離散值相關聯(lián)的連續(xù)特征的值,為多個離散特征中的每一個確定離散特征的每個離散值的統(tǒng)計;基于為離散特征的每個離散值確定的統(tǒng)計,為每個離散特征確定第一概要統(tǒng)計;基于為離散特征確定的第一概要統(tǒng)計和為離散特征的每個離散值確定的統(tǒng)計,為每個離散特征確定相異度;基于所確定的相異度確定多個離散特征中的候選離散特征,所述候選離散特征包括少于所有的多個離散特征;基于與候選離散特征的每個離散值相關聯(lián)的連續(xù)特征的值,為候選離散特征中的每一個確定第二概要統(tǒng)計;基于第二概要統(tǒng)計確定候選離散特征中的每一個的偏差分數(shù);以及基于所確定的偏差分數(shù)發(fā)送候選離散特征以便顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于商業(yè)對象軟件有限公司,未經(jīng)商業(yè)對象軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111497324.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





