[發明專利]一種基于機器學習技術的數據洞察系統有效
| 申請號: | 202011478815.2 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112506930B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 金震;李明;曹朝輝;楊海建 | 申請(專利權)人: | 北京三維天地科技股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2457;G06F16/28;G06F40/216;G06F40/30;G06N20/00 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 田春龍 |
| 地址: | 100000 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 技術 數據 洞察 系統 | ||
1.一種基于機器學習技術的數據洞察系統,其特征在于,包括:
數據接入層,用于從各種數據源獲取數據,并建立數據洞察系統的數據庫;
數據分類層,用于對所述數據庫中的標準數據進行分類分析生成數據資產目錄,并在所述數據資產目錄下建立數據資產卡片;
核心算法層,用于基于對數據資產卡片進行洞察分析,并得到分析結果;
可交互業務展示層,用于將所述分析結果根據用戶選定方式進行展示;
基于聚類分析對數據資產卡片進行洞察分析,并得到分析結果,還包括:
通過計算所述分析結果的質量評估值獲得所述分析結果的評估有效值對所述分析結果進行評估,其過程包括:
根據如下公式計算所述分析結果的質量評估值:
其中,Q表示所述分析結果的質量評估值,表示聚簇的數目,表示第i個聚簇中樣本點的數目,表示第j個聚簇中樣本點的數目,表示所述第i個聚簇中第w個樣本點的屬性值,表示所述第i個聚簇中個樣本點屬性值的平均值,表示所述第j個聚簇中第p個樣本點的屬性值,表示所述第j個聚簇中個樣本點屬性值的平均值,表示第i個聚簇中心點與第j個聚簇中心點的距離,j的取值范圍為[1,m],且i與j不相等;
基于所述分析結果的質量評估值,根據如下公式計算所述分析結果的評估有效值:
其中,所述分析結果的評估有效值,表示所述第i個聚簇的相似度得分,取值為[1,10],表示所述第j個聚簇的相似度得分,取值為[1,10],表示誤差系數,取值范圍為[0.2-0.4];
將計算得到的所述分析結果的評估有效值與預設有效值進行比較;
若所述分析結果的評估有效值大于預設有效值,則控制所述核心算法層停止對所述數據資產卡片的洞察分析,并將得到的分析結果傳輸到可交互業務展示層進行展示;
否則,則控制所述核心算法層繼續對所述數據資產卡片進行洞察分析,直到得到的分析結果的評估有效值大于預設有效值后,再通過可交互業務展示層進行展示。
2.根據權利要求1所述的一種基于機器學習技術的數據洞察系統,其特征在于,從各種數據源獲取數據,并建立數據洞察系統的數據庫,包括:
接收數據導入請求,并根據所述數據導入請求獲取相應的導入數據源;
接收所述導入數據源,并對所述導入數據源進行解析操作,得到所述導入數據源的第一組織架構樹;
獲取所述數據洞察系統的數據源,并對所述數據源進行解析操作,獲得所述數據源的第二組織架構樹;
將所述第一組織架構樹和第二組織架構樹進行合并操作,獲得合并組織架構樹,并基于所述合并架構樹,建立所述數據洞察系統的數據庫;
所述數據庫中包含有所述導入數據源中的數據。
3.根據權利要求1所述的一種基于機器學習技術的數據洞察系統,其特征在于,從各種數據源獲取數據,并建立所述數據洞察系統的數據庫后,還包括:
對所述數據庫中的數據進行數據預處理,其過程包括:
對所述數據庫中的數據進行數據缺失檢測,判斷所述數據庫中的數據是否出現缺失,若是,則遍歷所述數據庫,得到數據缺失的位置,利用雙線性差值算法對所述數據缺失的位置進行補值,得到第一數據集合;
對所述第一數據集合進行錯誤數據檢測,并提取所述第一數據集合中的錯誤數據;
獲取所述第一數據集合的比特數,并將比特數相同的數據組成數據集合,并對所述數據集合進行標記排序,按照所述排序將所述數據集合組成矩陣,對所述矩陣進行異或運算得到運算結果,并將所述運算結果依次排列得到修正序列,基于所述修正序列對所述錯誤數據進行修正,得到正確數據;
將所述第一數據集合中的錯誤數據替換為修正得到的正確數據,并將替換后的第一數據集合作為第二數據集合;
利用哈希函數將所述第二數據集合的數據分別映射成相應的哈希值,并提取所述哈希值中的最小哈希值;
利用局部敏感哈希算法將所述哈希值中的最小哈希值對應的第二數據集合中的數據映射到檢測序列中,并計算所述檢測序列中所任意兩個數據的相似值,若所述相似度大于預設相似值,則判定所述兩個任意數據為重復數據;
將所述重復數據按照導入時間先后順序,保留所述重復數據中導入時間最靠前的數據,將所述重復數據中剩余數據進行刪除;
將所述剩余數據刪除后的第二數據集合作為第三數據集合,并對所述第三數據集合中的數據進行數據標準化,得到標準數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三維天地科技股份有限公司,未經北京三維天地科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011478815.2/1.html,轉載請聲明來源鉆瓜專利網。





