[發明專利]數據分類方法以及裝置在審
| 申請號: | 201611149072.8 | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN108229507A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 陳新河;李慧芳;趙靜;詹文浩;張諾亞 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 許蓓 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類器 樣本數據 負樣本 樣本 分類效果 數據分類 正負樣本 次類 權重 分類過程 分類數據 數據分析 重要信息 權重和 正樣本 分類 擬合 賦予 | ||
本發明公開了一種數據分類方法以及裝置,涉及數據分析領域。本發明對于正負樣本不平衡的數據中的負樣本數據劃分為多個次類,進一步,各個次類中的負樣本數據與正樣本數據進行組合后再分為兩類,獲得多個分類器以及每個分類器基于分類數據的接近程度的權重,最后,基于權重和各個分類器確定最終分類器,對于正負樣本數據越接近的分類器賦予的權重越大,可以在實際分類時不會將少數樣本作為多數樣本的離群點被劃分至多數樣本的分類中去。本發明的方法不會減少或增加樣本數據,不會造成樣本數據重要信息的丟失,也不會導致過擬合,并且分類過程中考慮了負樣本數據的特征,以及各個分類器的分類效果,能夠有效的改善樣本數據整體的分類效果。
技術領域
本發明涉及數據分析領域,特別涉及一種數據分類方法以及裝置。
背景技術
現實中許多問題上我們能獲取的正負樣本數據是不平衡的,如質量檢測機每天檢測的產品中次品率是遠遠低于合格率的;居民癌癥普查中患有癌癥的居民人數是遠遠少于健康人群,通常情況下,這類少數樣本對于數據特征的研究的意義更大被稱作正樣本數據,而占多數的樣本數據被稱為負樣本數據。
傳統的分類算法通過最小化損失函數降低錯誤率,算法中沒有考慮到數據分布情況,往往偏向于多數類。在最壞的情況下,少數類的例子會被視為多數類的離群值而被忽略。
現有處理正負樣本數據不平衡的方法,以欠采樣法和過采樣法為主,通過減少大類的數據或者增加小類的數據以達到數據集平衡,但是欠采樣法刪去不少數據會使得大類損失不少重要信息,而過采樣法增加小類重復樣本容易導致過擬合且增加了計算時間和存儲開銷。這兩種方法對于正負樣本不平衡的數據進行分類的效果不好。
發明內容
本發明所要實現的一個目的是:提出一種數據分類的方法,改善對于正負樣本不平衡的數據進行分類的效果。
根據本發明的一個方面,提供的一種數據分類方法,包括:將樣本數據劃分為正樣本數據和負樣本數據,其中,負樣本數據和正樣本數據的數量的比值大于閾值;根據負樣本數據的各個數據點之間的相似性將負樣本數據劃分為多個次類;將每個次類的負樣本數據與正樣本數據合并作為一組訓練數據,得到多組訓練數據;對每組訓練數據利用支持向量機進行訓練,獲得一個分類器以及該分類器劃分的兩類數據的接近程度;根據每個分類器劃分的兩類數據的接近程度確定每個分類器的權重,其中,分類器劃分的兩類數據的接近程度越小則該分類器的權重越大;根據各個分類器以及各個分類器的權重確定最終分類器,利用最終分類器對待測數據進行分類。
在一個實施例中,根據負樣本數據的各個數據點之間的相似性將負樣本數據劃分為多個次類包括:根據負樣本數據和正樣本數據的數量的比值,確定負樣本數據劃分的次類的數量;利用聚類分析算法根據負樣本數據的各個數據點之間的相似性將負樣本數據劃分為確定的數量的次類。
在一個實施例中,分類器為利用支持向量機訓練獲得的最優分割平面表示;每個分類器劃分的兩類數據的接近程度為該分類器的最大分割間距。
在一個實施例中,根據各個分類器以及各個分類器的權重確定最終分類器包括:根據各個分類器的權重將各個分類器的最優分割平面表示進行加權求和計算,獲得最終分類器的最優分割平面表示。
在一個實施例中,分類器的權重為該分類器的最大分割間距的倒數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611149072.8/2.html,轉載請聲明來源鉆瓜專利網。





