[發明專利]基于孤立森林算法對異常點進行特征分析的方法及系統在審
| 申請號: | 202011480846.1 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112418355A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 周曉勇;梁淑云;劉勝;馬影;陶景龍;王啟凡;魏國富;殷錢安;余賢喆 | 申請(專利權)人: | 上海觀安信息技術股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 張景云 |
| 地址: | 200333 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 孤立 森林 算法 異常 進行 特征 分析 方法 系統 | ||
1.一種基于孤立森林算法對異常點進行異常特征分析的方法,其特征在于,包括以下步驟:
S01,在隨機樹生成過程中,在每個樹節點存儲隨機切分特征;
S02,對每個數據點,獲取其在每棵樹上的分支路徑所使用的切分特征序列;
S03,對特征序列長度設定閾值,保留長度低于閾值的特征序列;
S04,依據在特征序列上出現的位置和次數,計算每個特征的重要性,按重要性從高到低對特征進行排序;
S05,依據孤立森林輸出的異常概率選取異常點,再依據步驟S04的排序后特征序列,輸出異常點的TOP特征。
2.根據權利要求1所述的一種基于孤立森林算法對異常點進行特征分析的方法,其特征在于,所述步驟S01中隨機樹生成的算法邏輯為:對于輸入數據集,如果無法切分,則返回外部節點,外部節點的屬性size值等于數據集的大小;如果可以切分,則隨機選取一個特征,在該特征的最大值和最小值之間隨機選取一個切分值,特征值小于該切分值的數據點放入左子節點,大于等于該切分值的數據點放入右子節點,返回內部節點,內部節點的屬性包含左子節點、右子節點、切分特征、切分值。
3.根據權利要求1所述的一種基于孤立森林算法對異常點進行特征分析的方法,其特征在于,所述步驟S02中獲取切分特征序列的遞歸算法邏輯為:輸入包含某個數據點、某個樹節點、樹最大深度、該數據點在該樹節點時的當前深度、該數據點在該樹節點時的當前切分特征序列;輸出為切分特征序列;如果數據點位于外部節點或已達最大深度,則返回當前切分特征序列;如果數據點位于內部節點且未達最大深度,則將節點的切分特征放入當前切分特征序列尾部,同時對內部節點存儲的切分值和數據點切分特征的值進行大小比較,遞歸到內部節點的左子節點或右子節點,繼續生成切分特征序列。
4.根據權利要求1所述的一種基于孤立森林算法對異常點進行特征分析的方法,其特征在于,將特征序列上的特征分為終止特征和非終止特征;所述步驟S04中通過以下公式對特征重要性進行量化:
其中:是對于數據點d而言特征f的重要性;
因子的分子是對于數據點d而言特征f在所有切分特征序列中出現為終止特征的次數,分母是對于數據點d而言所有特征出現為終止特征的次數之和,即切分特征序列的總數;因子代表了特征f在所有特征中終止隨機樹生長的次數比例。
因子的分子與因子的分子相同,分母是對于數據點d而言特征f在所有切分特征序列中的出現次數終止特征和非終止特征的次數之和;因子代表了特征f在所有被隨機選中的機會里終止隨機樹生長的概率。
5.根據權利要求4所述的一種基于孤立森林算法對異常點進行特征分析的方法,其特征在于,所述終止次數總和的計算過程為:
設計3個字典,初始化三個字典類型屬性,包括特征重要性字典、特征出現次數字典、終止特征次數字典;三個字典的鍵都是特征編號;
對數據點在所有隨機樹上獲取的切分特征序列集循環遍歷得到每一個切分特征序列,對每一個切分特征序列循環遍歷得到特征編號,在特征出現次數字典中對該特征編號的值加1,對特征序列最后一個特征,在終止特征次數字典對該特征編號的值加1。
對終止特征次數字典的所有值求和,得到終止次數總和。
6.一種基于孤立森林算法對異常點進行異常特征分析的系統,其特征在于,包括:
隨機樹生成模塊,在隨機樹生成過程中,在每個樹節點存儲隨機切分特征;
特征序列獲取模塊,對每個數據點,獲取其在每棵樹上的分支路徑所使用的切分特征序列;
特征序列長度限定模塊,對特征序列長度設定閾值,保留長度低于閾值的特征序列;
特征重要性計算模塊,依據在特征序列上出現的位置和次數,計算每個特征的重要性,按重要性從高到低對特征進行排序;
異常特征輸出模塊,依據孤立森林輸出的異常概率選取異常點,再依據特征重要性計算模塊中排序后特征序列,輸出異常點的TOP特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海觀安信息技術股份有限公司,未經上海觀安信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011480846.1/1.html,轉載請聲明來源鉆瓜專利網。





