[發明專利]基于半監督學習的疾病預測模型建立方法及裝置有效
| 申請號: | 201711135644.1 | 申請日: | 2017-11-16 |
| 公開(公告)號: | CN107944479B | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 王宏志;宋揚 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G16H50/50 |
| 代理公司: | 北京格允知識產權代理有限公司 11609 | 代理人: | 周嬌嬌;譚輝 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 疾病 預測 模型 建立 方法 裝置 | ||
本發明涉及一種基于半監督學習的疾病預測模型建立方法及裝置,包括以下步驟:將有標簽數據進行分類,得到有標簽數據的基礎分類模型;選取部分無標簽數據;將選取的部分無標簽數據通過聚類方法進行分類,并且利用所述基礎分類模型對選取的部分無標簽數據進行標記,根據所述無標簽數據的聚類結果和預測結果得到無標簽數據的標記結果,再與有標簽數據合并起來進行分類,得到更新的基礎分類模型,從剩下的無標簽數據中繼續選取部分無標簽數據重新建模,如此迭代直至所有無標簽數據處理完畢,得到最終分類模型。本發明對無標簽數據進行建模,具體結合了有標簽的分類方法和無標簽的聚類方法,并通過迭代方式提升預測精度,更好地提升模型預測精度。
技術領域
本發明涉及數據處理領域,尤其涉及一種基于半監督學習的疾病預測模型建立方法及裝置,以及基于半監督學習的疾病預測方法及裝置。
背景技術
疾病預測是目前一個非常重要的課題,通過對醫療數據進行分析,得出預測模型,可以更好的對疾病數據進行利用,幫助醫生和個人進行疾病判斷。目前采用的數據建模方法主要為有監督學習方法,即根據已知的用例進行數據建模,并利用模型對未標記的數據進行標記。然而,有監督學習方法一般對有標簽數據進行數據建模,但現在有效數據量非常有限,而海量的無標簽數據數目龐大,造成許多的數據模型并未很好的擬合數據甚至過擬合數據。
發明內容
本發明要解決的技術問題在于,針對現有技術中的上述缺陷,提供一種基于半監督學習的疾病預測模型建立方法及裝置,利用半監督學習方法對無標簽數據進行建模,其結合了有標簽的分類方法和無標簽的聚類方法,根據數據分類結果進行調整,并通過迭代方式提升預測精度。
為了解決上述技術問題,本發明第一方面,提供了一種基于半監督學習的疾病預測模型建立方法,包括以下步驟:
S1、將有標簽數據進行分類,得到有標簽數據的基礎分類模型;
S2、從無標簽數據中選取部分無標簽數據;
S3、將步驟S2選取的部分無標簽數據通過聚類方法進行分類,得到無標簽數據的聚類結果M1,并且利用所述基礎分類模型對步驟S2選取的部分無標簽數據進行標記,得到預測結果T1;根據所述無標簽數據的聚類結果M1和預測結果T1得到無標簽數據的標記結果C;
S4、將無標簽數據的標記結果C和有標簽數據合并起來進行分類,得到更新的基礎分類模型,轉步驟S2從剩下的無標簽數據中繼續選取部分無標簽數據執行步驟S3和S4,如此迭代直至所有無標簽數據處理完畢,得到最終分類模型。
優選地,所述步驟S2中,若q2遠大于q1,其中q1為有標簽數據的數據總量,q2為無標簽數據的數據總量,則選取的所述部分無標簽數據的數量為a×q2,且15%≤a≤25%,否則選取的所述部分無標簽數據的數量為b×q1,且45%≤b≤55%。
優選地,所述步驟S2中,若q2>10q1,則選取的所述部分無標簽數據的數量為a×q2,其中a=20%;若q1≤q2≤10q1,則選取的所述部分無標簽數據的數量為b×q1,且b=50%。
優選地,所述步驟S3中利用以下線性公式計算無標簽數據的標記結果C:
C=αT1+βM1;
其中α,β為分類系數;α=50%q1/(q1+q2),β=q1/(q1+q2)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711135644.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像識別方法、系統以及電子設備
- 下一篇:一種企業行業分類方法





