[發明專利]一種針對大氣污染物濃度預測的選擇特征的方法在審
| 申請號: | 201811063979.1 | 申請日: | 2018-09-12 |
| 公開(公告)號: | CN109190709A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 劉博;蘇鵬方 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大氣污染物 預測 數據集 因果關聯規則 污染物數據 歷史數據 濃度預測 數據集中 特征子集 污染物 污染物濃度數據 結合神經網絡 篩選 方法選擇 強相關 弱相關 特征集 冗余 子集 | ||
本發明公開了一種針對大氣污染物濃度預測的選擇特征的方法,針對想要預測的大氣污染物,通過Granger因果關聯規則在所有大氣污染物的數據集中選出與想要預測的污染物數據集具有Granger因果關聯規則的數據集,與要預測的污染物歷史數據的數據集一起組成特征子集。本發明從大氣污染的大量多為時許數據集中篩選出與想要預測的污染物濃度數據集強聯系的其他污染物數據集,從而獲得盡可能小的特征集和,篩選掉冗余和弱相關的數據集和作為特征,結合神經網絡預測污染物濃度。使用這種方法選擇的特征子集針對性強,子集中的數據與預測歷史數據存在著強相關聯系。
技術領域
本發明屬于機器學習領域,尤其涉及一些因果關聯規則,以及神經網絡特征選擇。
背景技術
經典特征選擇定義為從N個特征集合中選出M個特征的子集,并滿足條件M≤N[1]。它包括特征提取和特征選擇兩個方面:特征提取廣義上指的是一種變換,將處于高維空間的樣本通過映射或變換的方式轉換到低維空間,達到降維的目的;特征選擇指從一組特征中去除冗余或不相關的特征來降維。二者常聯合使用,如先通過變換將高維特征空間映射到低維特征空間,然后再去除冗余的和不相關的特征來進一步降低維數。
至今為止,有很多學者從不同角度出發對特征獲取進行過定義:Kira定義理想情況下的特征獲取為尋找必要的、足以識別目標的最小尺寸特征子集;John從提高預測精度角度定義特征獲取為選擇特征子集來增加分類精度,或者在不降低分類器精度的條件下降低特征集維數的過程;Koller從類分布的角度定義特征獲取為:在保證結果類分布盡可能與原始數據類分布相似的條件下,選擇盡可能小的特征子集;Dash給出的定義是選擇盡量小尺寸的特征子集,并滿足不顯著降低分類精度和不顯著改變類分布兩個條件。
發明內容
本發明要解決的技術問題是,提供一種針對大氣污染時間序列選擇特征的方法。針對想要預測的大氣污染物,通過Granger因果關聯規則在所有大氣污染物的數據集中選出與想要預測的污染物數據集具有Granger因果關聯規則的數據集,與要預測的污染物歷史數據的數據集一起組成特征子集。
本發明面向大氣污染的大氣污染數據集,提出了一種針對大氣污染物弄濃度預測的選擇特征的方法,從大氣污染的大量多為時許數據集中篩選出與想要預測的污染物濃度數據集強聯系的其他污染物數據集,從而獲得盡可能小的特征集和,篩選掉冗余和弱相關的數據集和作為特征,結合神經網絡預測污染物濃度。
為了實現上述目的,本發明采用以下技術方案:首先確定想要預測的大氣污染物的數據作為第一層數據集,然后對收集到的中除了第一層數據集的數據集與第一層數據集進行Granger因果檢驗,尋找與驗證集數據存在因果關系的數據集,作為第二層的Granger因果檢驗數據集,然后再對除了第二層Granger因果檢驗數據集的與第二層的Granger因果檢驗數據集進行Granger因果檢驗,尋找與第二層的Granger因果檢驗數據集存在因果關系的數據集,作為第三層的Granger因果檢驗數據集,然后依次循環,直到沒有更多一層的Granger因果檢驗數據集。將所得到的結果以樹的數據結構方式存儲起來,從而得到對一種污染物濃度預測的具有Granger因果關系多層次的,強聯系的數據集和來作為特征。
一種針對大氣污染物濃度預測的選擇特征的方法包括以下步驟:
步驟1、獲取大氣污染數據集,并對大氣污染數據集中數據進行預處理,得到經過預處理后的大氣污染數據集,并且在下面的步驟對本數據集進行操作。
步驟1具體包括以下步驟:
步驟1.1使用最近距離決定填補法填補缺失值,由于大氣污染數據為時序數據,并且時間因素對數據變化的影響不明顯。所以使用最近距離決定填補法填補缺失值可以有效貼近實際值。
步驟1.2采用離群點分析的方法,通過聚類檢測離群點,由于污染物濃度不會突然大幅度變化,所以通過聚類檢測離群點,糾正數據,減少數據噪聲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811063979.1/2.html,轉載請聲明來源鉆瓜專利網。





