[發明專利]數據解析裝置在審
| 申請號: | 201880097252.7 | 申請日: | 2018-09-13 |
| 公開(公告)號: | CN112654864A | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 藤田雄一郎;野田陽 | 申請(專利權)人: | 株式會社島津制作所 |
| 主分類號: | G01N27/62 | 分類號: | G01N27/62 |
| 代理公司: | 北京林達劉知識產權代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 解析 裝置 | ||
多次重復進行以下一系列處理:將被提供的帶標簽教師數據分割為模型構建用數據和模型驗證用數據,使用模型構建用數據來構建機器學習模型,并將該模型應用于模型驗證用數據來識別樣本(賦予標簽)(S2~S5)。雖然當模型構建用數據改變時構建出的機器學習模型改變,但是應該能夠以高概率準確地進行識別,因此在錯誤標簽樣本中,原本的標簽與識別結果不一致從而成為錯誤識別的可能性高。當針對每個樣本計算該錯誤識別次數來求出錯誤識別率時,在錯誤標簽樣本中錯誤識別率相對變高,因此基于錯誤識別率來確定錯誤標簽樣本(S6~S7)。像這樣,通過以高精度檢測教師數據所包含的、錯誤標簽狀態的可能性高的樣本,能夠提升機器學習模型的識別性能。
技術領域
本發明涉及一種數據解析裝置,該數據解析裝置對由質譜分析裝置、氣相色譜儀(GC)、液相色譜儀(LC)、分光測定裝置這樣的各種分析裝置獲得的數據等通過各種方法收集到的數據進行解析,更詳細的是涉及一種數據解析裝置,該數據解析裝置利用作為機器學習的一種方法的監督學習來識別未賦予標簽的數據并進行標簽賦予,或者預測標簽。此外,一般在“機器學習”這樣的用語中也有時不包含多變量分析,但是在本說明書中設為機器學習包括多變量分析。
背景技術
為了從多種多樣的大量的數據中找到規律性,并利用該規律性來進行數據的預測或識別,機器學習是一個有用的方法,其應用領域近年來逐漸擴大。作為機器學習的代表性的方法,支持向量機(SVM=Support Vector Machine)、神經網絡(Neural Network)、隨機森林(Random Forest)、自適應提升(AdaBoost)、深度學習(Deep Learning)等廣為人知。另外,作為廣義的機器學習所包括的多變量分析的代表性的方法,主成分分析(PCA=Principal Component Analysis)、獨立成分分析(ICA=Independent ComponentAnalysis)、偏最小二乘法(PLS=Partial Least Squares)等廣為人知(參照專利文獻1等)。
在機器學習中大致分為監督學習和無監督學習。例如,在基于通過分析裝置收集到的數據來識別被檢者有沒有特定的疾病這樣的情況下,只要能夠對于患有該疾病的患者和未患有該疾病的正常者分別預先收集大量的數據,則能夠進行將這些數據作為教師數據的監督學習。最近特別地,在各處都進行著以下的嘗試:對通過質譜分析裝置獲取到的質譜數據應用監督學習,來進行癌癥等疾病的診斷。
圖12是整理了關于癌標本和非癌標本的質譜數據來作為教師數據的峰矩陣的一例。
該峰矩陣在縱向設為樣本,在橫向設為峰位置(質荷比m/z),將各峰的信號強度值設為了要素的值。因而,該峰矩陣中的1行的各要素表示出關于一個樣本的各質荷比中的峰的信號強度值,1列的各要素表示出某個質荷比時的所有樣本的信號強度值。在此,樣本1到樣本n-2的樣本為癌標本,對這些樣本的每一個賦予了表示是癌的“1”的值的標簽。另一方面,樣本n-1到樣本N的樣本為非癌標本,對這些樣本的每一個賦予了表示是非癌的“0”的值的標簽。在這種情況下,標簽為二值的標簽。
通過使用這樣的帶標簽教師數據,能夠構建能夠以高準確性識別癌和非癌的機器學習模型。然而,根據情況,有時教師數據本身的標簽錯誤。說到底癌與非癌(或者其它疾病的患病與未患病)的判定是基于病理醫生的診斷的,既然是人進行判斷,則實際上無法使錯誤為零。另外,即使病理醫生的診斷結果正確,也要考慮到由于將該病理醫生的診斷結果作為教師數據輸入時的操作員的輸入錯誤而導致標簽錯誤。因此,無法避免在作為教師數據提供的大量的樣本中混入少量的標簽錯誤的錯誤標簽狀態的樣本。
作為應對這樣的狀況的一個方法,將機器學習的算法設為即使在教師數據中混入一些錯誤標簽狀態的樣本也能夠得到高的識別性能。然而,當想要提高對于錯誤標簽狀態的教師數據的容許度時,無法避免識別性能的下降,尚無法實現使它們能夠并存的通用的機器學習的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社島津制作所,未經株式會社島津制作所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880097252.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





