[發明專利]基于連通圖的因子篩選方法、裝置、設備及介質有效
| 申請號: | 202110015583.5 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112330080B | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 張莉;劉聃;余雯;喬延柯;吳志成 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/06 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 遲珊珊;劉麗華 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 連通 因子 篩選 方法 裝置 設備 介質 | ||
本發明涉及人工智能領域,提供一種基于連通圖的因子篩選方法、裝置、設備及介質,能夠結合貪婪遍歷算法及連通圖進行因子的篩選,有效剔除相關性較強的重復因子,避免由于因子的冗余造成數據的冗余,并且,最終得到的目標因子也具有較強的可解釋性。本發明還涉及區塊鏈技術,目標因子可存儲于區塊鏈。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于連通圖的因子篩選方法、裝置、設備及介質。
背景技術
在人工智能領域,為了提高模型的準確率及效率,在將各個因子輸入模型進行運算前,首先要對因子進行篩選。
目前,在處理多個高相似性的因子時,主要采用以下兩種方式:
(1)人工篩選因子的方式。
采用人工對因子進行兩兩相關性判斷,再挑選出對模型的預測能力高的因子。由于這種方式主要依賴于人工判斷,并且是進行一對一的判定,容易產生錯誤或者遺漏現象,在進行模型的測試等迭代任務時,也比較繁瑣。
(2)基于模型自動篩選因子的方式。
目前主要采用隨機森林模型進行因子的篩選,但是隨機森林模型無法剔除相關性強的因子,且可解釋性較弱。
發明內容
鑒于以上內容,有必要提供一種基于連通圖的因子篩選方法、裝置、設備及介質,能夠有效剔除相關性較強的重復因子,避免由于因子的冗余造成數據的冗余,并且,最終得到的目標因子也具有較強的可解釋性。
一種基于連通圖的因子篩選方法,所述基于連通圖的因子篩選方法包括:
響應于因子篩選指令,根據所述因子篩選指令獲取至少一個因子及預測目標;
計算所述至少一個因子中每兩個因子間的相關系數;
獲取預設閾值,根據所述預設閾值及每兩個因子間的相關系數對所述至少一個因子進行兩兩組合,得到至少一個因子組合,并連接所述至少一個因子組合中的兩個因子,得到至少一個邊;
基于貪婪遍歷算法,根據所述至少一個邊構建至少一個子圖;
整合所述至少一個子圖,得到連通圖;
計算所述連通圖中每個因子相對于所述預測目標的信息價值,并根據所述信息價值從每個子圖中篩選目標因子。
根據本發明優選實施例,采用下述公式計算所述至少一個因子中每兩個因子間的相關系數:
其中,為因子及因子之間的相關系數,為因子及因子的協方差,為因子的方差,為因子的方差,i、j為正整數。
根據本發明優選實施例,所述基于貪婪遍歷算法,根據所述至少一個邊構建至少一個子圖包括:
檢測每個邊對應的兩個因子中每個因子在所述至少一個邊中的出現次數;
當檢測到有邊對應的兩個因子在所述至少一個邊中的出現次數都為1時,不執行遍歷,將檢測到的邊確定為單邊;或者
當檢測到有邊對應的兩個因子在所述至少一個邊中的出現次數不都為1時,將檢測到的邊確定為目標邊,并根據所述目標邊在所述至少一個邊中進行遍歷,根據遍歷到的邊對所述目標邊進行擴展連接,得到完全圖;
將所述單邊及所述完全圖確定為所述至少一個子圖。
根據本發明優選實施例,所述計算所述連通圖中每個因子相對于所述預測目標的信息價值,并根據所述信息價值從每個子圖中篩選目標因子包括:
獲取每個因子相對于所述預測目標的響應比例、未響應比例及證據權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110015583.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:地表信息預測方法及裝置
- 下一篇:一種飛機進氣道表面損傷的檢測方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





