[發明專利]樣本屬性評估模型訓練方法、裝置及服務器在審
| 申請號: | 201811015607.1 | 申請日: | 2018-08-31 |
| 公開(公告)號: | CN109325525A | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 王修坤;趙婷婷;劉斌 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 劉杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 訓練樣本 模型訓練 樣本屬性 半監督機器學習算法 評估模型 評估 社區 服務器 挖掘 | ||
1.一種樣本屬性模型訓練方法,包括:
確定與訓練樣本對應的關系圖中每個社區的黑樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;
基于所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的白樣本抽樣概率進行抽樣,獲得白樣本;
基于半監督機器學習算法對所述黑樣本與所述白樣本進行訓練,獲得目標樣本屬性評估模型。
2.根據權利要求1所述的方法,所述確定與訓練樣本對應的關系圖中每個社區的黑樣本濃度,包括:
確定每個社區中所有黑樣本對應節點在該社區總節點中的第一占比,將所述第一占比作為該社區的黑樣本濃度;或
確定每個社區中所有黑樣本對應節點在所述關系圖中總節點中的第二占比,將所述第一占比作為該社區的黑樣本濃度;或
確定每個社區中所有黑樣本對應節點在該社區總節點中的第三占比,以及該社區總節點在所述關系圖中的總節點中的第四占比,獲得所述第三占比與所述第四占比的加權平均值,將所述加權平均值作為該社區的黑樣本濃度。
3.根據權利要求1所述的方法,所述基于半監督機器學習算法對所述黑樣本與所述白樣本進行訓練,獲得目標樣本屬性評估模型,包括:
基于半監督機器學習算法對所述黑樣本與所述白樣本進行訓練,獲得樣本屬性評估模型;
判斷所述樣本屬性評估模型是否滿足預設收斂條件;
如果否,更新所述每個社區的黑樣本濃度,基于更新后的每個社區的黑樣本濃度與所述半監督機器學習算法繼續訓練,直至訓練得到的樣本屬性評估模型滿足所述預設收斂條件,將滿足所述預設收斂條件的樣本屬性評估模型作為目標樣本屬性評估模型。
4.根據權利要求3所述的方法,所述判斷所述樣本屬性評估模型是否滿足預設收斂條件,包括:
基于所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的本輪屬性評估結果,共計獲得M個本輪屬性評估結果,M為未知樣本的個數;
基于所述M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷所述樣本屬性評估模型是否滿足預設收斂條件。
5.根據權利要求4所述的方法,所述基于所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的本輪屬性評估結果,包括:
基于所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的黑樣本評分,如果黑樣本評分值大于預設分值,將該未知樣本的屬性信息標記為黑樣本,其中,每個所述未知樣本的本輪屬性評估結果中包括該未知樣本的屬性信息。
6.根據權利要求5所述的方法,所述基于所述M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷所述樣本屬性評估模型是否滿足預設收斂條件,包括:
判斷每個未知樣本的本輪屬性評估結果中的屬性信息與該未知樣本的上一輪屬性評估結果中的屬性信息是否一致,如果是,表明所述本輪樣本屬性評估模型滿足所述預設收斂條件。
7.根據權利要求5所述的方法,所述更新所述每個社區的黑樣本濃度,包括:
基于所述M個本輪屬性評估結果與M個上一輪屬性評估結果,確定屬性信息發生變化的未知樣本;
重新計算與所述屬性信息發生變化的未知樣本對應的社區的黑樣本濃度。
8.根據權利要求1-7中任一權利要求所述的方法,所述訓練樣本為申請理賠人員對應的保險數據,所述黑樣本為騙保人員對應保險數據。
9.一種樣本屬性評估方法,包括:
根據權利要求1-7中任一權利要求所述的方法訓練得到的目標樣本屬性評估模型,對新進樣本進行評估,確定所述新進樣本的評估結果,其中,所述評估結果中包括所述新進樣本的黑樣本評分和/或屬性信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811015607.1/1.html,轉載請聲明來源鉆瓜專利網。





