[發明專利]基于低差異度數列交叉檢驗的數據分類優化方法及系統有效
| 申請號: | 201710243664.4 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN107122598B | 公開(公告)日: | 2018-02-23 |
| 發明(設計)人: | 劉建亞;郭亮;呂若丹 | 申請(專利權)人: | 劉建亞 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N99/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司37221 | 代理人: | 張勇 |
| 地址: | 250100 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 差異 度數 交叉 檢驗 數據 分類 優化 方法 系統 | ||
技術領域
本發明屬于數據挖掘和機器學習分類領域,尤其涉及一種基于低差異度數列交叉檢驗的數據分類優化方法及系統。
背景技術
目前,監督機器學習(supervised machine learning)技術在人工智能輔助醫療數據分類的已經開始得到應用。其思想為用一個監督機器學習分類算法統計模型(下簡稱分類學習模型),通過統計大量已經被人類分類的醫療歷史數據,來學習人類的分類能力,從而達到輔助人類來準確對醫療數據進行分類的目的。通常情況下,其實施流程為:
(1)首先收集一個數據集,內含大量就診人員的臨床診斷歷史數據,其中包括這些就診人員的各種醫學和生化檢驗的特征信息(比如血壓,心率等特征)和就診人員的分類標簽(比如把就診人員分成健康人員或病患,輕度患病或重度患病,就診人員的細胞存活或死亡等類別);(2)然后采用一種監督機器學習方法,設立一個分類學習模型(比如,采用邏輯回歸算法,建立一個線性回歸模型),對這個數據集做交叉驗證(Cross validation,亦稱循環估計)。交叉驗證包括訓練和測試兩個部分。通常情況下,該數據集的樣本被隨機分入到k個子集里,利用k-1個子集來訓練模型,映射訓練集中就診人員的特征和和醫生的診斷分類之間的關系。余下一個子集作來對之前訓練好的模型進行測試,衡量之前在訓練集中得到的特征和診斷分類之間的映射關系是否也存在于測試集的數據里,由此得到一個預測分類準確率。(3)如果準確率達到或超過預先設定的合格分類水平,則該統計模型通過交叉檢驗,可以直接被部署應用;如果準確度不高,則需要研究人員修改統計模型或使用另外一種監督機器學習方法,重做交叉測試,直到通過為止。
理想的交叉檢驗方法必須遵守子集代表性(representative subsets)條件。也就是說每個子集必須從全部樣本歷史數據(下簡稱全部樣本數據)中均勻取樣。均勻取樣的目的是希望減少每個子集與全部數據之間的偏差,使得特征和診斷分類之間的映射關系在每個子集里都能很好得存在。這k個子集數據應為全部樣本數據的有代表性的縮小版,盡最大可能地保留全部樣本數據的特征和診斷分類之間的映射信息。其中,最常用的交叉檢驗方法是隨機10-折交叉檢驗(random k-fold cross validation,k=10)。
該方法先對全部樣本數據中得每個樣本的序號進行編號。然后利用一個計算機生產的偽隨機數列(pseudo random number sequence)。該數列所有數字為不重復的整數,最小為1,最大為全部樣本數據的樣本量。這些數字在該數列里排列的次序為隨機的。每個數字對應全部樣本數據一個樣本的序號。先將該偽隨機數列分成10個等份,然后把每個等份里的偽隨機數所對應的全部樣本數據樣本抽出放入到一個子集中,依次把全部樣本數據樣本分配到10個子集里。
每次實驗輪流用取一份子集做測試集,余下的9份作為訓練集。每次先在訓練集上訓練模型,得到相應的假設統計模型,然后用測試集測試假設統計模型,計算該模型的預測分類準確率。隨機k折交叉檢驗需要循環進行k次實驗,即每一子集都會作為一次測試集,因此會得到k個預測分類準確率。最后取這k個預測分類準確率的平均值(以下稱為k折平均預測分類準確率)為該模型的評價指標,用于跟預先設定的合格分類水平進行比較。
這種交叉檢驗方法依賴一個計算機生成的偽隨機數列,而偽隨機數列的產生則依賴于隨機種子。使用一個偽隨機數列劃分子集會對于隨機種子非常敏感。如果使用不同的隨機種子,每次做交叉檢驗,都會劃分都可能把全部樣本數據樣本劃分到不同的子集里。如果同一個模型重復做若干次交叉檢驗,每次交叉驗證的時候會得到不同的k折平均預測分類準確率。因此,為了抵消隨機數列帶來的子集不確定性,研究人員往往需要用不同的隨機種子重復幾十次該交叉檢驗過程,然后對這幾十個k折平均預測分類準確率求平均值,作為該模型的預測分類準確率。但是重復幾十次不光計算成本較大,而且也不能很好地解決子集缺乏代表性問題。也就是說,即使重復幾十次交叉檢驗,每個子集的預測分類準確率依然差別很大(即子集之間的預測分類準確率標準方差較大,最好和最低預測分類準確率的間距較大)。
綜上所述,針對醫療信息系統的數據庫內的樣本數據做交叉檢驗的過程中,往往采用現有的隨機k折交叉檢驗方法來對當前訓練完成的分類學習模型進行交叉檢驗,以評估其預測分類準確率,比如:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉建亞,未經劉建亞許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710243664.4/2.html,轉載請聲明來源鉆瓜專利網。





