[發明專利]使用機器學習算法處理個人數據及其應用在審
| 申請號: | 201980024828.1 | 申請日: | 2019-04-09 |
| 公開(公告)號: | CN112189206A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 羅伯特·雷蒙德·林德內爾 | 申請(專利權)人: | 維達數據方案公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F16/335 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 韓峰;孫志湧 |
| 地址: | 美國華盛頓*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 機器 學習 算法 處理 個人 數據 及其 應用 | ||
為了訓練模型,需要訓練數據。當個人數據隨時間變化時,該訓練數據可能會過時,從而消除了其在訓練模型時的用處。實施例通過開發具有運行日志的數據庫來處理該問題,該運行日志指定每個人的數據在當時如何變化。當攝取數據時,可能無法將其標準化。為了解決這個問題,實施例清理數據以確保攝取的數據字段被標準化。最后,訓練模型和解決個人數據準確性所需的各種任務對于計算設備而言可能很快變得很麻煩。它們可能彼此沖突,并且在計算資源(諸如處理器能力和內存容量)方面的競爭效率低下。為了解決這些問題,使用了調度器來對涉及的各種任務進行排隊。
技術領域
該領域通常與處理信息有關。
背景技術
隨著技術的進步,越來越多的個人數據被數字化,結果,越來越多的個人數據變得可合法訪問。個人數據的可訪問性的增加催生了專注于合法挖掘個人數據的新行業。
個人數據記錄可以包括許多屬性。代表個人的數據記錄可以包括諸如個人姓名、他或她的城市、州和郵政編碼的屬性。除了人口統計信息外,數據記錄還可以包括有關個人的行為的信息。來自不同來源的數據記錄可能包括不同屬性。存在用于收集描述獨立個體的特征或行為的信息的系統。收集這類個人信息具有許多應用,包括在國家安全、執法、市場營銷、醫療保健和保險領域的應用。
例如,在醫療保健中,醫療保健提供者可能具有來自各種數據源的不一致的個人信息(諸如地址信息),這些數據源包括國家提供者標識符注冊、藥物管制局(DEA)注冊、公共資源(例如諸如YELP評論網站的互聯網網站)以及專有來源,諸如健康保險公司理賠信息。
隨著記錄從不同來源接收到越多更新,它們也存在不一致和與數據錄入相關聯的錯誤的更大風險。通過這些方式,均描述同一個人的數據記錄在其內容方面可能是不協調、不一致且錯誤的。從這些各種來源,單個醫療保健提供者可以具有許多地址,也許多達200個地址。這些來源可能對正確的地址是什么意見不一。一些醫療保健提供者具有多個正確的地址。為此,提供者可能具有較新的地址的事實并不意味著較舊的地址不正確。
一些健康和牙科保險公司要求員工手動致電醫療保健提供者,以確定他們的正確地址。但是,由于醫療保健提供者的地址信息可能會經常更改,因此這種手動更新的成本很高。除了地址信息之外,與醫療保健提供者有關的其他人口統計信息(諸如電話號碼)也存在類似的問題。
此外,欺詐性理賠是醫療保健中的巨大問題。據一些估計,僅從政府運營的健康保險計劃中,欺詐性理賠每年就可能竊取超過800億美元。欺詐的普遍存在遠遠超出了執法部門和保險公司進行調查的資源。
數據定向算法(稱為機器學習算法)可用于進行預測和實施某些數據分析。機器學習是計算機科學的領域,為計算機賦予無需進行明確編程即可學習的能力。在數據分析領域,機器學習是一種用于設計可以被用來預測和估計的復雜模型和算法的方法。
要開發這些模型,首先必須對其進行訓練。通常,訓練涉及輸入被稱為特征的一組參數,以及用于輸入特征的已知的正確或不正確的值。訓練模型后,可以將其應用于未知適當解決方案的新特征。通過以這種方式應用模型,模型可以預測或估計未知的其他情況的解決方案。這些模型可以通過從數據庫中的歷史關系和趨勢中學習來發現隱藏的見解。這些機器學習模型的質量可能取決于基礎訓練數據的質量和數量。
需要系統和方法來改善對正確個人信息(諸如醫療保健提供者的人口統計信息和欺詐傾向)或數據源的識別和預測。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于維達數據方案公司,未經維達數據方案公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980024828.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:生產膜蛋白的方法
- 下一篇:關于對結構部件與板材的連接的改進





