[發明專利]一種數據分類方法、裝置、電子設備及存儲介質在審
| 申請號: | 201910247972.3 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109948730A | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 何博睿 | 申請(專利權)人: | 中誠信征信有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;馬敬 |
| 地址: | 100011 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 待分類數據 分類模型 數據分類 存儲介質 電子設備 分析模型 負樣本 樣本 貝葉斯分類器 迭代訓練 金融領域 輸入分類 數據分析 訓練過程 貝葉斯 正樣本 分類 概率 預設 標注 金融 應用 分析 | ||
本發明實施例提供了一種數據分類方法、裝置、電子設備及存儲介質,其中,方法包括:獲取待分類數據的信息,將獲取的待分類數據的信息,輸入分類模型中,得到各個待分類數據為第一類數據的概率,其中,第一類數據為:與正樣本對應的數據;根據得到的概率,對各所述待分類數據分類。應用本發明實施例提供的方案在進行數據分類時,在所使用的分類模型的訓練過程中,無需構造貝葉斯分類模型,也無需用貝葉斯分類器來進行數據分析,而是用各個樣本對第一預設模型進行迭代訓練得到可靠負樣本分析模型,用可靠負樣本分析模型分析各個未標注樣本,根據分析結果確定出分類模型的,實現了對金融領分類模型的訓練,從而實現了對金融領域的數據的分類。
技術領域
本發明涉及計算機技術領域,特別是涉及一種數據分類方法、裝置、電子設備及存儲介質。
背景技術
隨著計算機技術的快速發展,使用分類模型來對數據進行分類被越來越廣泛地使用,其中,分類模型通常由已知樣本訓練得到。在模型訓練過程中,經常會遇到以下情況:用于訓練模型的樣本中只標注出正樣本,而未標注出其他樣本的正負。例如,在金融領域中,經常會碰到只知道哪些用戶是已經違約的,但是對于剩下的用戶不清楚還有誰是可能違約的用戶。
針對以上情況,現有技術通常使用正樣本和無標注樣本學習(PositiveUnlabeled learning,簡稱PU-learning)方法來訓練分類模型。使用PU-learning訓練模型的過程為:根據正樣本集P與未標注樣本集M構造貝葉斯分類模型,得到貝葉斯分類器,使用貝葉斯分類器對對未標注樣本集M中的每個樣本進行分析得到可靠負樣本集,根據正樣本集、可靠負樣本集來確定分類模型。
使用現有的PU-learning方法在確定分類模型時,由于是先構造貝葉斯分類模型,得到貝葉斯分類器,用貝葉斯分類器來確定可靠負樣本集的,貝葉斯分類器通常只可以分析概率連續變化的樣本,而金融領域中的樣本概率通常并不是連續變化的,例如,用戶是否是違約用戶的樣本概率是二分類型的,也就是離散型的,因此,貝葉斯分類器通常無法對金融領域的數據進行分類分析,所以傳統的PU-learning方法并不適用于訓練金融領域的分類建模,從而使得無法對金融領域的數據進行分類。
發明內容
本發明實施例的目的在于提供一種數據分類方法、裝置、電子設備及存儲介質,以實現對金融領域數據的分類。具體技術方案如下:
第一方面,本發明實施例提供了一種數據分類方法,所述方法包括:
獲取待分類數據的信息;
將獲取的所述待分類數據的信息,輸入分類模型中,得到各個所述待分類數據為第一類數據的概率,其中,所述第一類數據為:與正樣本對應的數據;
根據得到的概率,對各所述待分類數據分類;
其中,所述分類模型是按以下步驟訓練得到的:
S210:獲取正樣本集P、未標注樣本集M,從正樣本集P中獲取部分樣本,得到第一正樣本子集S,將所述S與未標注樣本集M相加得到混合樣本集M+S,將所述P中減去所述S得到第二正樣本子集P-S,并將所述M+S中的各個樣本標注負的樣本標識,將所述P-S中的各個樣本標注正的樣本標識;
S220:根據所述M+S中各個樣本的樣本標識、所述M+S中各個樣本的信息、所述P-S中各個樣本的樣本標識、所述P-S中各個樣本的信息,訓練第一預設模型,得到第一模型;
S230:用所述第一模型預測所述M+S中各個樣本為正樣本的概率,并根據所述M+S中各個樣本為正樣本的概率,為所述M+S中各個樣本重新標注樣本標識;
S240:根據所述M+S中各個樣本重新標注的樣本標識、所述M+S中被重新標注樣本標識的樣本的信息、所述P-S中各個樣本的樣本標識、所述P-S中各個樣本的信息,重新訓練所述第一預設模型,得到第二模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中誠信征信有限公司,未經中誠信征信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910247972.3/2.html,轉載請聲明來源鉆瓜專利網。





