[發明專利]一種業務變量的數值的分段方法及裝置有效
| 申請號: | 201610289143.8 | 申請日: | 2016-05-04 |
| 公開(公告)號: | CN107346367B | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 邵明旭;潘浩源;錢劭立 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 黨曉林;李輝 |
| 地址: | 英屬開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 業務 變量 數值 分段 方法 裝置 | ||
1.一種業務變量的數值的分段方法,其特征在于包括:
對業務變量的各個數值排序形成數值隊列,并對所述數值隊列進行初始分段;
計算每個初始分段中數值的集中程度;
嘗試合并相鄰分段,計算新分段中數值的集中程度,若該集中程度符合預定條件,則形成新的分段結果;
輸出所述新的分段結果;
嘗試合并相鄰分段,計算新分段中數值的集中程度,若該集中程度符合預定條件,則形成新的分段結果具體包括,從數值集中程度最好的分段開始,嘗試將該分段與向前的分段合并,然后計算合并后的前向分段中數值的前向集中程度;嘗試將該分段與向后的分段合并,然后計算合并后的后向分段中數值的后向集中程度;比較所述前向集中程度和后向集中程度,取集中程度較小的作為新的分段;對所有分段重復進行上述處理,直到新的分段中數值的集中程度超過第一門限值,則停止處理,形成新的分段結果。
2.根據權利要求1所述的方法,其特征在于,在對業務變量的各個數值排序形成數值隊列之前還包括,抽取業務變量原始數值中的數值,形成所述數值隊列。
3.根據權利要求1所述的方法,其特征在于,在對業務變量的各個數值排序形成數值隊列之前還包括,將時間型的業務變量轉換為數值。
4.根據權利要求1所述的方法,其特征在于,對所述數值隊列進行初始分段進一步包括,通過分位數的方式將數值隊列進行初始分段,或者通過等距法將數值隊列進行初始分段。
5.根據權利要求1所述的方法,其特征在于,對所述數值隊列進行初始分段進一步包括,獲得初始分段中每個分段的分界值,形成分界值隊列。
6.根據權利要求5所述的方法,其特征在于,獲得初始分段中每個分段的分界值,形成分界值隊列之后還包括,將數值隊列中小于分界值隊列中最小值的數值更新為所述分界值隊列中的最小值,將數值隊列中大于分界值隊列中最大值的數值更新為所述分界值隊列中的最大值。
7.根據權利要求6所述的方法,其特征在于,獲得初始分段中每個分段的分界值,形成分界值隊列之后還包括,若數值隊列中的最小值等于分界值隊列中的最小值,則去掉所述分界值隊列中的最小值,若數值隊列中的最大值等于分界值隊列中的最大值,則去掉所述分界值隊列中的最大值。
8.根據權利要求1所述的方法,其特征在于,所述計算每個初始分段中數值的集中程度具體包括,計算每個分段中數值的變異系數,其中,變異系數CV=標準偏差SD/平均值Mean。
9.根據權利要求1所述的方法,其特征在于,計算每個初始分段中數值的集中程度具體包括,計算每個分段中數值的方差,或者標準差。
10.根據權利要求9所述的方法,其特征在于,在嘗試合并相鄰分段,計算新分段中數值的集中程度,若該集中程度符合預定條件,則形成新的分段結果之中還包括,將數值個數較少的分段與相鄰的分段進行合并,確保每個分段中數值個數占整個數值隊列中數值個數的比例大于第二門限值,形成新的分段結果。
11.根據權利要求1所述的方法,其特征在于,輸出所述新的分段結果后還包括,根據集中程度最好的分段所在的時間段,查詢該時間段中互聯網的輿論是否發生異常情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610289143.8/1.html,轉載請聲明來源鉆瓜專利網。





