[發明專利]一種基于數據挖掘的醫保欺詐行為的檢測方法有效
| 申請號: | 201410598935.4 | 申請日: | 2014-10-30 |
| 公開(公告)號: | CN104408547B | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 陳是維;劉成昊;孫建伶;李善平;彭志宇 | 申請(專利權)人: | 浙江網新恒天軟件有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/22 |
| 代理公司: | 杭州求是專利事務所有限公司33200 | 代理人: | 邱啟旺 |
| 地址: | 310012 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 挖掘 醫保 欺詐 行為 檢測 方法 | ||
1.一種基于數據挖掘的醫保欺詐行為的檢測方法,其特征在于,采用基于統計學、聚類、關聯分析、隨機森林模型的無監督方法對醫保參保人的數據記錄進行離群點檢測,找到離群點對應的異常記錄,這些異常記錄即為潛在的欺詐行為;具體包括以下步驟:
(1)用統計學方法對醫保參保人的信息記錄進行離群點檢測:根據總費用信息的離群程度對該條記錄進行打分,打分范圍為0到4分;根據住院天數信息的離群程度對該條記錄進行打分,打分范圍為0到2分;根據藥費信息的離群程度對該條記錄進行打分,打分范圍為0到2分;根據診療費信息的離群程度對該條記錄進行打分,打分范圍為0到2分;該條記錄的總得分為上述四個得分之和,范圍為0到10分;具體如下:
(1.1)將所有醫保參保人的總費用按升序排序,找出該數據集的第90個、第95個、第98個、第99個百分位數,分別記為Q90,Q95,Q98,Q99;
若該條記錄的總費用小于Q90,則得分為0;
若該條記錄的總費用大于Q90,小于Q95,則得分為1;
若該條記錄的總費用大于Q95,小于Q98,則得分為2;
若該條記錄的總費用大于Q98,小于Q99,則得分為3;
若該條記錄的總費用大于Q99,則得分為4;
(1.2)將所有醫保參保人的住院天數按升序排序,找出該數據集的第90個、第95個百分位數,分別記為Q90,Q95;
若該條記錄的住院天數小于Q90,則得分為0;
若該條記錄的住院天數大于Q90,小于Q95,則得分為1;
若該條記錄的住院天數大于Q95,則得分為2;
(1.3)將所有醫保參保人的藥費按升序排序,找出該數據集的第90個、第95個百分位數,分別記為Q90,Q95;
若該條記錄的藥費小于Q90,則得分為0;
若該條記錄的藥費大于Q90,小于Q95,則得分為1;
若該條記錄的藥費大于Q95,則得分為2;
(1.4)將所有醫保參保人的診療費按升序排序,找出該數據集的第90個、第95個百分位數,分別記為Q90,Q95;
若該條記錄的診療費小于Q90,則得分為0;
若該條記錄的診療費大于Q90,小于Q95,則得分為1;
若該條記錄的診療費大于Q95,則得分為2;
(1.5)將步驟(1.1)-步驟(1.4)中的得分相加,即為該條記錄基于統計學方法的得分;
(2)根據醫保參保人的性別、年齡、工作狀態、職業類型、資金類型、所在企業、醫院等級、醫院種類、住院天數、總費用信息,通過調用隨機森林模型得到一個分類器,將該分類器作為費用預測模型;將每條記錄中的性別、年齡、工作狀態、職業類型、資金類型、所在企業、醫院等級、醫院種類、住院天數、總費用信息代入費用預測模型即可得到該條記錄的預測費用,再計算預測費用與實際費用的差值與預測費用的商;將得到的商按升序排序,找出該數據集的第75個、第82個、第86個、第90個、第93個、第95個、第97個、第98個、第99個、第995個百分位數,分別記為Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5;
若商小于Q75,則得分為0;
若商大于Q75,小于Q82,則得分為1;
若商大于Q82,小于Q86,則得分為2;
若商大于Q86,小于Q90,則得分為3;
若商大于Q90,小于Q93,則得分為4;
若商大于Q93,小于Q95,則得分為5;
若商大于Q95,小于Q97,則得分為6;
若商大于Q97,小于Q98,則得分為7;
若商大于Q98,小于Q99,則得分為8;
若商大于Q99,小于Q99.5,則得分為9;
若商大于Q99.5,則得分為10;
(3)用基于關聯分析的方法對醫保參保人的西藥用藥記錄進行離群點檢測:將醫保參保人的西藥用藥記錄轉換成交易流數據,通過eclat算法找出支持度不低于0.1的頻繁項集,且頻繁項集為2項集;根據頻繁項集的支持度對頻繁項集進行排序;計算出一條記錄中西藥藥品數與記錄中出現的頻繁項集支持度之和的商,根據計算出的商值進行打分;具體為:將得到的商按升序排序,找出該數據集的第75個、第82個、第86個、第90個、第93個、第95個、第97個、第98個、第99個、第995個百分位數,分別記為Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5;
若商小于Q75,則得分為0;
若商大于Q75,小于Q82,則得分為1;
若商大于Q82,小于Q86,則得分為2;
若商大于Q86,小于Q90,則得分為3;
若商大于Q90,小于Q93,則得分為4;
若商大于Q93,小于Q95,則得分為5;
若商大于Q95,小于Q97,則得分為6;
若商大于Q97,小于Q98,則得分為7;
若商大于Q98,小于Q99,則得分為8;
若商大于Q99,小于Q99.5,則得分為9;
若商大于Q99.5,則得分為10;
(4)用基于聚類的方法對醫保參保人的西藥用藥記錄進行離群點檢測,將醫保參保人的西藥用藥記錄轉換成交易流數據,計算出每兩條記錄之間的jaccard距離;具體包括如下子步驟:
(4.1)計算一條記錄與其他所有記錄之間的jaccard距離之和,將所有記錄對應的和按升序排序,找出該數據集的第90個、第95個、第98個、第99個百分位數,分別記為Q90,Q95,Q98,Q99;
若和小于Q90,則得分為0;
若和大于Q90,小于Q95,則得分為1;
若和大于Q95,小于Q98,則得分為2;
若和大于Q98,小于Q99,則得分為3;
若和大于Q99,則得分為4;
(4.2)將一條記錄與其他所有記錄之間的jaccard距離中的最大距離值按升序排序,找出該數據集的第90個、第95個百分位數,分別記為Q90,Q95;
若最大值小于Q90,則得分為0;
若最大值大于Q90,小于Q95,則得分為1;
若最大值大于Q95,則得分為2;
(4.3)將一條記錄與其他所有記錄之間的jaccard距離中的次大距離值按升序排序,找出該數據集的第90個、第95個百分位數,分別記為Q90,Q95;
若次大值小于Q90,則得分為0;
若次大值大于Q90,小于Q95,則得分為1;
若次大值大于Q95,則得分為2;
(4.4)將一條記錄與其他所有記錄之間的jaccard距離中的第三大距離值按升序排序,找出該數據集的第90個、第95個百分位數,分別記為Q90,Q95;
若和小于Q90,則得分為0;
若和大于Q90,小于Q95,則得分為1;
若和大于Q95,則得分為2;
(4.5)將步驟(4.1)-步驟(4.4)中的得分相加,即為該條記錄基于聚類方法的得分;
(5)根據每種方法的打分對每條記錄進行綜合打分,綜合分數為四個分數中最高分的七倍與其他分數之和的十分之一,范圍為0到10分,其中0分為非異常記錄,1-10分為異常記錄,異常記錄又劃分為三個等級,1-3分為輕微異常,4-7分為一般異常,8-10分為高度異常,綜合分數不為零的記錄即為異常記錄,從而完成醫保欺詐行為的檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江網新恒天軟件有限公司,未經浙江網新恒天軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410598935.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖形化引導展示方法及系統
- 下一篇:一種車輛資源配置方法和系統
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





