[發明專利]一種基于梯度提升樹的蚊媒傳染病疫情預測方法及系統有效
| 申請號: | 201810097508.6 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108172301B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 張鳳軍;邱曉慧;周紅寧;杜龍飛;梁賡;王鑫 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G16H50/80 | 分類號: | G16H50/80 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 安麗 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 梯度 提升 傳染病 疫情 預測 方法 系統 | ||
1.一種基于梯度提升樹的蚊媒傳染病疫情預測方法,其特征在于:所述方法全面收集影響蚊媒傳染病的因素,對缺失值、原始值分別采用薄板樣條插值與正則匹配方式進行處理,根據梯度提升樹對各因素重要度進行排序,基于泊松回歸建立蚊媒傳染病疫情態勢預測模型,之后采用S折交叉驗證確定模型參數,利用地理信息的疫情熱點圖、基于時間軸的疫情爆發圖展示預測結果;
具體包括以下步驟:
第一步,收集數據
所述數據包括蚊媒及傳染病數據、地理數據、氣象數據、社會人文數據,共25維,包括歷年蚊媒傳染病病例數據、發熱門診數據和傳染媒介密度數據、土地利用現狀、陸地生態系統類型空間分布數據、植被類型空間分布數據、水域分布及面積、居民區分布及面積和森林分布及面積、平均、最高、最低氣壓,平均、最高、最低溫度,平均、最小相對濕度,降水量,平均、最大風速,風向,日照時數、人口數據、交通數據和過境數據;蚊媒及傳染病數據由疾控相關人員通過蚊媒傳染病防控平臺將現場流調數據上報;地理數據由分析遙感數據得到;氣象數據由中國氣象網以及現場建立監測點得到;社會人文數據通過政府相關資料得到;
第二步,數據清洗
上述數據存在數據缺失、數據雜亂、數據重復情況,為解決上述問題,對單條記錄缺失值采取周圍平均化的方式填補數據,直至填補完所有缺失值;對部分區域或者站點缺失值,采用薄板樣條插值法,其具體過程如下:針對氣象監測站點收集到的氣象數據存在時間間隔不均勻的現象,假設氣象數據隨時間的分布函數為y=f(x),在監測站點的某一監測時間窗口內已經收集到n+1組時間-氣象數據對,記為(x1,y1),(x2,y2),…,(xn+1,yn+1),隨后構造樣條函數式中x,y為要被插入的時間-氣象數據對,di為兩組時間-氣象數據對之間的歐式距離,Ai,a,b,c為相關待定系數,其具體數值根據氣象數據隨時間的分布情況通過多次實驗確定;對數據雜亂情況,采用正則匹配方式得到有效數據;對數據重復,采用過濾方法處理;
第三步,基于梯度提升樹選取影響蚊媒傳染病因素
梯度提升樹是一種由基函數組成的加法模型,其基函數為決策樹,由M棵樹組合而成,梯度提升樹表示為決策樹的加法模型為:
其中,fM(x)為梯度提升樹函數,T(x;θm)表示單棵決策樹函數,θm為第m棵決策樹參數,M為決策樹的個數,利用收集的N組蚊媒傳染病因素-蟲媒傳染病爆發態勢對即(x1,y1),(x2,y2),....(xN,yN)構建梯度提升樹模型,基于此模型選取影響登革熱爆發態勢的因素,具體過程如下所示:
(1)構建梯度提升樹
(1-1)確定初始梯度提升樹f0(x)=0,第m步的提升樹為fm(x)=fm-1(x)+T(x;θm);
(1-2)對于m=1,2,.....M
(a)確定參數,在本發明中采用平方誤差損失函數即L(y,f(x))=(y-f(x))2,構建梯度提升樹的損失為L(y,fm-1(xi)+T(x;θm))=(y-fm-1(xi)-T(x;θm))2=(r-T(x;θm))2,其中r=y-fm-1(xi),r為當前模型擬合數據的殘差;
(b)計算殘差,即計算當前模型預測值與真實蚊媒傳染病值的差;rmi=yi-fm-1(xi),i=1,2,...,N;
(c)擬合殘差rmi學習一棵決策樹,得到T(x;θm);
(d)更新fm(x)=fm-1(x)+T(x;θm);
(2)計算單棵決策樹經過節點t分裂后,平方損失減少值;
其中,為平方損失減少值即不同蚊媒傳染病因素在節點t的重要度,T(x;θm)為單棵決策樹函數,xi,yi為蚊媒傳染病因素-蟲媒傳染病爆發態勢對,Rw為所預測蟲媒傳染病爆發態勢值;
(3)計算蚊媒傳染病因素全局重要度排序
(3-1)計算每個蚊媒傳染病因素在單棵蚊媒梯度提升樹中重要度,
其中,j為第j個蚊媒傳染病因素,L為單棵決策樹的節點數量,t為單棵決策樹第t個節點,vt為第t個節點所表示的因素值,是第t節點分裂之后平方損失的減少值;
(3-2)根據單棵決策樹中重要度計算結果,計算每個因素數據在全部梯度提升樹全局重要度其中,
為第j個因素數據在梯度提升樹中重要度,Tm表示第m棵決策樹,M是梯度提升樹含有決策樹的數量;
(3-3)對影響蚊媒傳染病全部因素依據重要度進行排序;
第四步,選取因素作為特征
依據第三步對第一步收集的25維因素排序,從中選取重要度最大的5維因素構建蚊媒傳染病預測模型,經大量反復實驗驗證,每天的平均氣溫、最高氣溫、輸入病例人數,平均相對濕度,水域分布及面積被選取;
第五步,基于泊松回歸建立預測模型
采用基于泊松回歸建立蚊媒傳染病預測疫情態勢預測模型;
(1)蚊媒傳染病預測疫情態勢預測模型
蚊媒傳染病預測疫情態勢預測模型基于泊松回歸建立,具體公式如下所示:
C表示蚊媒傳染病疫情態勢情況,d為日期,S(tempavgd-5,y),S(tempmaxd-5,y)分別定義了五天前平均、最高溫度經過薄板樣條插值后的數據y,S(importd-5,y)定義五天前輸入病例情況,S(rainfalld-5,y)為五天前累積降水量,S(waterd-5,y)為五天前的水域面積情況,為過去15天蚊媒傳染病疫情態勢情況;為了提高擬合的準確率,加入S(tempavgd-52,y)為五天前平均氣溫的平方值,使蚊媒傳染病疫情態勢情況與各因素數據不是單純的線性關系;
(2)蚊媒傳染病疫情態勢預測模型參數確定
首先,利用每個因素與蚊媒傳染病疫情相關性大小即相關系數初始化模型參數;之后利用S折交叉驗證確定模型參數,即采用十折交叉驗證法來確定模型參數,具體如下所示:
(a)初始化蚊媒傳染病疫情態勢預測模型參數,分別計算基于梯度提升樹選取的五維因素與蚊媒傳染病疫情態勢的相關系數;相關系數計算采用皮爾遜系數,將皮爾遜系數作為模型的初始化參數;
(b)調整蚊媒傳染病疫情態勢預測模型參數,將數據集按照時間順序分為十份,每份數據量為180,進行多次實驗;每次實驗隨機選取九份即1620組蚊媒傳染病因素-蟲媒傳染病爆發態勢對進行訓練即構建基于泊松回歸的蚊媒傳染病預測模型,剩下的一份即180組蚊媒傳染病因素-蟲媒傳染病爆發態勢對進行測試,即評估預測模型準確率,依據模型預測準確率調整其參數;
第六步,可視化展示預測結果,預測結果由基于時空結合的可視化展示方法顯示,所述展示方法包括基于地理信息的疫情熱點圖和基于時間軸的疫情爆發圖。
2.一種實現如權利要求1所述的基于梯度提升樹的蚊媒傳染病疫情預測方法的系統,其特征在于:包括數據收集模塊、數據預處理模塊、因素選擇模塊、模型建立模塊、結果展示模塊,其中:
數據收集模塊:收集影響蚊媒傳染病疫情的多種因素數據;
數據預處理模塊:對影響蚊媒傳染病疫情的因素數據進行預處理,對所述氣象數據利用薄板樣條插值法進行處理,對所述歷年蚊媒傳染病病例數據利用正則匹配法進行處理;
因素選擇模塊:對預處理后的所述多種因素數據采用梯度提升樹方法計算每個因素數據的重要度并排序,根據重要度順序選取若干因素數據作為特征數據;
模型建立模塊:基于所述特征數據建立蚊媒傳染病預測模型,利用S折交叉驗證確定所述模型的最優參數;
結果展示模塊:為可視化展示模型預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810097508.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種確定皮膚狀態變化的年齡拐點的方法
- 下一篇:合理用藥信息監測方法及系統





