[發(fā)明專利]并入數(shù)據(jù)分組的預(yù)測(cè)模型在審
| 申請(qǐng)?zhí)枺?/td> | 202011104920.X | 申請(qǐng)日: | 2020-10-15 |
| 公開(公告)號(hào): | CN112669908A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設(shè)計(jì))人: | 王海天;夏小璇;徐仲锳 | 申請(qǐng)(專利權(quán))人: | 香港中文大學(xué) |
| 主分類號(hào): | G16B40/20 | 分類號(hào): | G16B40/20;G16H50/30;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;洪欣 |
| 地址: | 中國香*** | 國省代碼: | 香港;81 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 并入 數(shù)據(jù) 分組 預(yù)測(cè) 模型 | ||
Prism Vote方法是一種用于群體分層數(shù)據(jù)集的預(yù)測(cè)模型。具體來講,Prism Vote利用主成分分析將訓(xùn)練樣本劃分為不同的分組,并基于不同的分組構(gòu)建預(yù)測(cè)模型。對(duì)于測(cè)試樣本,根據(jù)其群體分層結(jié)構(gòu)基于貝葉斯方法計(jì)算其屬于不同分組的概率,使用這個(gè)概率作為權(quán)重,將多個(gè)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和,作為最終決策。
相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求2019年10月15日提交的第62/915,459號(hào)美國臨時(shí)申請(qǐng)的優(yōu)先權(quán)。
背景技術(shù)
本公開內(nèi)容總體上涉及結(jié)果的預(yù)測(cè),并且特別涉及并入數(shù)據(jù)分組的預(yù)測(cè)模型。
準(zhǔn)確的預(yù)測(cè)模型在多個(gè)領(lǐng)域都有重要的指導(dǎo)意義。例如,在醫(yī)學(xué)領(lǐng)域中,可根據(jù)特定患者的癌癥風(fēng)險(xiǎn)提出與癌癥篩查有關(guān)的最佳建議(例如,實(shí)施篩查的頻率和/或?qū)嵤┠姆N篩查測(cè)試)。再者,如果患者患有特定疾病,則可以根據(jù)預(yù)測(cè)結(jié)果選擇最優(yōu)治療方案。
傳統(tǒng)上,使用諸如線性或邏輯回歸的技術(shù),可以基于一個(gè)或多個(gè)自變量生成預(yù)測(cè)。在傳統(tǒng)方法中,研究團(tuán)隊(duì)設(shè)計(jì)一項(xiàng)研究來測(cè)試特定變量(或變量集)與特定結(jié)果相關(guān)的特定假設(shè),然后收集足以檢驗(yàn)該假設(shè)的樣本數(shù)量,其中該數(shù)量是基于預(yù)期的效應(yīng)大小、要控制的潛在混淆變量等預(yù)先確定的。
最近,機(jī)器學(xué)習(xí)使得個(gè)性化預(yù)測(cè)成為可能,特別是在面臨大量的潛在相關(guān)變量時(shí)。機(jī)器學(xué)習(xí)分類器通常被給予大量“訓(xùn)練”樣本,該數(shù)據(jù)集中變量和結(jié)果均已知。使用已知的訓(xùn)練程序來訓(xùn)練分類器,以優(yōu)化目標(biāo)函數(shù)。通常,機(jī)器學(xué)習(xí)分類器的訓(xùn)練是動(dòng)態(tài)過程,隨著新樣本被添加到訓(xùn)練數(shù)據(jù)集中,此分類器會(huì)重新訓(xùn)練以利用新的信息。
發(fā)明內(nèi)容
隨著數(shù)據(jù)集樣本增多,數(shù)據(jù)結(jié)構(gòu)在樣本中的差異性愈來愈明顯。這種漸增的異構(gòu)性會(huì)導(dǎo)致假設(shè)“整個(gè)訓(xùn)練數(shù)據(jù)集為同質(zhì)性群體”的預(yù)測(cè)算法的準(zhǔn)確性降低。例如,可能對(duì)部分群體的強(qiáng)預(yù)測(cè)變量對(duì)于另一部分樣本幾乎沒有貢獻(xiàn)。
所要求保護(hù)的發(fā)明的某些實(shí)施方案涉及適用于群體分層的預(yù)測(cè)的技術(shù)。利用主成分分析的方法將樣本根據(jù)數(shù)據(jù)結(jié)構(gòu)分組,并基于不同的分組構(gòu)建預(yù)測(cè)模型。對(duì)于測(cè)試樣本,根據(jù)其群體分層結(jié)構(gòu)基于貝葉斯方法計(jì)算屬于不同分組的概率,使用這個(gè)概率作為權(quán)重,將多個(gè)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和,作為最終決策。
本文所述的技術(shù)可應(yīng)用于存在樣本組間差異的任何數(shù)據(jù)集。雖然本文所述的實(shí)例涉及使用基因組數(shù)據(jù)的疾病預(yù)測(cè),但相似的技術(shù)也可應(yīng)用于其它背景中。例如,在衛(wèi)生保健領(lǐng)域,數(shù)據(jù)可以包括除基因組數(shù)據(jù)以外的生物標(biāo)志物(例如血液化學(xué)數(shù)據(jù);醫(yī)學(xué)成像數(shù)據(jù);生物計(jì)量參數(shù),如心率或血壓;家族病史;行為參數(shù)(如飲食或運(yùn)動(dòng)),以及預(yù)測(cè)可涉及診斷(例如,特定疾病的存在或不存在)、發(fā)展疾病的可能性、對(duì)特定療程的預(yù)期反應(yīng)等。本文所述的技術(shù)也可應(yīng)用于其它領(lǐng)域,如金融(例如,預(yù)測(cè)未來投資回報(bào)或貸款違約的可能性)、保險(xiǎn)(例如,預(yù)測(cè)被保險(xiǎn)人未來索賠的可能價(jià)值)等。
以下詳細(xì)描述以及附圖將提供對(duì)所要求保護(hù)的發(fā)明的性質(zhì)和優(yōu)點(diǎn)的更好的理解。
附圖說明
圖1顯示了根據(jù)本發(fā)明的實(shí)施方案的用于預(yù)測(cè)結(jié)果可能性的過程的流程圖。
圖2顯示了在本發(fā)明的一些實(shí)施方案中可以與圖1的過程一起使用的用于訓(xùn)練集分組的過程的流程圖。
圖3顯示了在本發(fā)明的一些實(shí)施方案中可以與圖1的過程一起使用的用于計(jì)算預(yù)測(cè)結(jié)果的過程的流程圖。
圖4A-4D顯示了例示出將根據(jù)本發(fā)明的實(shí)施方案的過程應(yīng)用于模擬數(shù)據(jù)集的結(jié)果的四幅圖。
圖5是例示出將根據(jù)本發(fā)明的實(shí)施方案的過程應(yīng)用于模擬數(shù)據(jù)集的結(jié)果的條形圖。
圖6是顯示使用根據(jù)本發(fā)明的實(shí)施方案的過程和全局邏輯回歸分析的阿爾茨海默病數(shù)據(jù)的接收者操作特性(ROC)曲線的圖。
圖7是顯示使用根據(jù)本發(fā)明的實(shí)施方案的過程和全局邏輯回歸分析的精神分裂癥數(shù)據(jù)的ROC曲線的圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于香港中文大學(xué),未經(jīng)香港中文大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011104920.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 防止或除去復(fù)合結(jié)構(gòu)結(jié)冰的基于CNT的電阻加熱
- 作為自屏蔽線材用于增強(qiáng)的電力傳輸線的CNT并入的纖維
- 作為自屏蔽線材用于增強(qiáng)的電力傳輸線的CNT并入的纖維
- 包含平行排列的碳納米管的碳納米管并入的纖維材料、其制造方法及從其衍生的復(fù)合材料
- 協(xié)同行駛方法
- 用于將軟件代碼更改自動(dòng)并入到適當(dāng)通道的機(jī)制
- 一種分布式電源群并入電網(wǎng)的控制方法及系統(tǒng)
- 一種根據(jù)交通燈進(jìn)行并道的方法、裝置以及無人駕駛車輛
- 一種控制無人駕駛車輛的方法、裝置以及無人駕駛車輛
- 控制車輛并入目標(biāo)車道的方法、裝置以及無人駕駛車輛
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





