[發明專利]一種樣本數據類別確定方法和設備在審
| 申請號: | 201710385273.6 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107273918A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 康明;王江;張斌德 | 申請(專利權)人: | 國信優易數據有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京青松知識產權代理事務所(特殊普通合伙)11384 | 代理人: | 鄭青松 |
| 地址: | 100070 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 數據 類別 確定 方法 設備 | ||
技術領域
本發明涉及計算機技術領域,特別地,涉及一種樣本數據類別確定方法和設備。
背景技術
考慮到一種實際情況,現有一份企業評價標準表,共5個等級(優秀、良好、一般、較差、很差),其中影響企業評價的指標數目有多個,比如財務收益情況、資產營運狀態、償債能力狀況、發展能力狀況等。此標準下,對于一家各項指標有高有低的企業,如何評價其等級?
抽象來看,這其實就是一個高維數據的分類問題,一個可行的辦法是,先直接對高維數據進行降維,在低維空間再進行分類。現有的降維分類方法中,以投影尋蹤(PP)為代表的模型,其中涉及到的唯一參數——密度窗寬取值,目前還必須依靠經驗或試算來確定,導致得到的分類結果不夠客觀準確。
發明內容
針對上述技術問題,本發明提供一種樣本數據類別確定方法和設備,旨在解決現有技術中對高維數據分類不夠客觀以及準確度低的問題。
本發明采用的技術方案為:
本發明的一方面提供一種樣本數據類別確定方法,包括:基于使用投影方向向量對樣本數據進行投影得到的投影特征值,以及根據得到的投影特征值對樣本數據進行分類得到的分類結果,構造投影目標函數,使得所述投影目標函數的函數值越優,表征分類結果中每個分類內部特征值聚集度越高,且各分類之間聚集度越低;基于所述投影目標函數建立分類模型;將樣本數據輸入所述分類模型,采用預設遺傳算法對投影方向向量進行迭代,直到得到的投影方向向量使所述投影目標函數的函數值達到最優;
將基于所述得到的投影方向向量對樣本數據進行分類的分類結果確定為最終分類結果。
可選地,所述投影為線性投影;構成所述投影方向向量的元素表征分類所依據的對應指標的權重;在對投影方向向量進行迭代之前,還包括:根據預設的對不同指標的偏好需求,確定不同指標對應權重之間的數值關系;將所述數值關系作為所述分類模型的約束條件輸入所述分類模型。
可選地,基于使用投影方向向量對樣本數據進行投影得到的投影特征值,以及根據得到的投影特征值對樣本數據進行分類得到的分類結果,構造投影目標函數,具體包括:使用投影方向向量對樣本數據進行投影得到投影特征值;基于得到的投影特征值,采用預設分類算法對樣本數據進行分類,得到各類別分別對應的聚類中心以及每個投影特征值所屬類別;針對每個類別,確定所屬該類別的各投影特征值分別與該類別對應聚類中心之間的距離的第一和值;將為各類別分別確定的第一和值相加得到總和值;確定投影運算值分別與各聚類中心之間的距離的第二和值;其中,所述投影運算值為對各投影特征值之和進行預設運算處理得到的數值;基于所述總和值、所述第二和值、以及預設運算關系構造所述投影目標函數,使得所述總和值越小且所述第二和值和值越大時,所述投影目標函數的值越優。
可選地,基于所述總和值、所述第二和值、以及預設運算關系構造所述投影目標函數,使得所述總和值越小且所述第二和值越大時,所述投影目標函數的值越優,具體包括:所述投影目標函數表征為所述總和值與所述第二和值的商,使得所述總和值越小且所述第二和值越大時,所述投影目標函數的值越小,當所述投影函數的值最小時達到最優;或者所述投影目標函數表征為所述第二和值與所述總和值的商,使得所述總和值越小且所述第二和值越大時,所述投影目標函數的值越大,當所述投影函數的值最大時達到最優。
可選地,基于得到的投影特征值,采用K-means算法對樣本數據進行分類:隨機選取K個投影特征值分別作為K個類別的聚類中心初始值;執行如下聚類步驟:針對各投影特征值中除本次K個聚類中心之外的其余各投影特征值中的每個投影特征值,確定該投影特征值分別與本次K個聚類中心之間的距離;以及將本次K個聚類中心中與該投影特征值距離最近的聚類中心所屬類別確定為該投影特征值所屬類別;針對得到的每個類別,確定所屬該類別的各投影特征值的平均值,并將該平均值對應的投影特征值確定為下次聚類過程使用的聚類中心;以及判斷該下次聚類過程使用的聚類中心與本次聚類過程使用的聚類中心是否滿足預設條件,若不滿足,則將下次聚類過程使用的聚類中心作為新的本次K個聚類中心,再次執行所述聚類步驟;若滿足,則將本次聚類過程得到的分類結果確定為最終分類結果。
可選地,在對樣本數據進行投影之前,還包括對樣本數據進行歸一化處理的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國信優易數據有限公司,未經國信優易數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710385273.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





