[發(fā)明專利]一種基于層次聚類和隨機森林的高分辨率海洋水溫計算方法有效
| 申請?zhí)枺?/td> | 202010016709.6 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111242206B | 公開(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計)人: | 何麗莉;白洪濤;陽乾隆;姜宇;歐陽丹彤 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/18 |
| 代理公司: | 北京遠(yuǎn)大卓悅知識產(chǎn)權(quán)代理有限公司 11369 | 代理人: | 許小東 |
| 地址: | 130000 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 層次 隨機 森林 高分辨率 海洋 水溫 計算方法 | ||
本發(fā)明公開了一種基于層次聚類和隨機森林的高分辨率海洋水溫計算方法,包括:首先,對數(shù)據(jù)集進(jìn)行歸一化處理,以消除量綱的不同對實驗造成的影響;其次,將數(shù)據(jù)集中的樣本看作初始類簇,采用自底向上的聚合策略進(jìn)行層次聚類;在聚類算法運行過程的每一步找出距離最近的兩個類簇進(jìn)行合并,該過程不斷重復(fù),直至數(shù)據(jù)被劃分出五類;最后,對于劃分出的每一個類,采用網(wǎng)格化搜索的方法尋找隨機森林模型的最佳參數(shù)并為其構(gòu)建隨機森林模型。本發(fā)明使用的數(shù)據(jù)來自BOA Argo的觀測結(jié)果,實驗結(jié)果表明,本發(fā)明提出的模型的預(yù)測準(zhǔn)確度比對數(shù)據(jù)直接使用隨機森林模型有著很好的提升,特別是在聚類劃分出的某些局部海域,模型準(zhǔn)確度能提升10倍左右。
技術(shù)領(lǐng)域
本發(fā)明涉及海洋溫度預(yù)測領(lǐng)域,具體涉及一種基于層次聚類和隨機森林的高分辨率海洋水溫計算方法。
背景技術(shù)
發(fā)生在海洋中的許多自然現(xiàn)象和發(fā)生過程往往與海水的物理性質(zhì)有著很大的相關(guān)性。人類要認(rèn)識和開發(fā)海洋,首先必須對海洋進(jìn)行全面深入地觀測和調(diào)查,掌握其物理性質(zhì)。而海水溫度和鹽度作為海洋水文要素中最重要的組成部分之一,研究其時間和空間分布規(guī)律,不僅是海洋學(xué)的重要內(nèi)容,而且對氣象學(xué)、航海學(xué)、捕撈業(yè)、軍事和水聲等領(lǐng)域也彌足輕重。由于海洋環(huán)境復(fù)雜,人類在水下工作困難較大,目前為止,水下傳感器網(wǎng)絡(luò)是我們感知海洋環(huán)境的理想選擇。美國是第一個開展水下傳感器網(wǎng)絡(luò)的國家。20世紀(jì)50年代,美國在大西洋和太平洋部署了聲學(xué)監(jiān)控系統(tǒng)SOSUS(Kocakulak and Butun 2017)。OceanNetwork Canada and the university of Victoria也發(fā)展了水下傳感器網(wǎng)絡(luò)VENUS和NEPTUNE用于接收和發(fā)送數(shù)據(jù)(Heesemann et.al.2014)。2013年,中國在南海也部署了第一個水下監(jiān)視系統(tǒng)。水下監(jiān)測中最基本的工作之一是溫度和鹽度的監(jiān)測。不僅需要實時監(jiān)測網(wǎng)絡(luò)中各個監(jiān)測點的數(shù)據(jù),也需要非監(jiān)測點的值。換句話說,需要提高監(jiān)測數(shù)據(jù)的空間分辨率。更高的分辨率意味著對環(huán)境信息有著更好的認(rèn)知。
Yu Jiang et.al.提出了一種基于支持向量回歸的用于提高海水溫度和鹽度空間分辨率的模型。但就像所知道的那樣,支持向量機是借助二次規(guī)劃來求解支持向量的,較大規(guī)模的海洋水溫和鹽度數(shù)據(jù)樣本將耗費大量的機器內(nèi)存和運算時間。海洋學(xué)中,水團(tuán)是具有相對均勻的物理、化學(xué)和生物特征及大體一致的變化趨勢,而與周圍海水存在明顯差異的宏大水體。聚類分析可以將數(shù)據(jù)分類到不同的類簇中,同一個類簇的對象具有很大的相似性,不同類簇間的對象有很大的差異性。這使用聚類方法對某一海域進(jìn)行水團(tuán)劃分,然后對不同水團(tuán)進(jìn)行建模分析。常見的聚類算法大致包括K-Means聚類(Huang X,Wei S.2016)、均值漂移聚類(Yamasaki R,Tanaka T.2019)、基于密度的聚類(Mahesh Kumar K,Rama M RA)、用高斯混合模型的最大期望聚類(Vlassis N,Likas A.2002)、層次聚類(BouguettayaA.2015)和圖團(tuán)體檢測聚類5種。
隨機森林是一種基于決策樹模型的集成學(xué)習(xí)方法。決策樹學(xué)習(xí)算法最著名的代表是ID3(Quinlan,1979,1986)、C4.5(Quinlan,1993)和CART(Breiman et al.,1984)。ID3、C4.5分別采用信息增益和信息增益率來進(jìn)行特征選擇。CART采用最小剩余方差來進(jìn)行特征選擇,這使得它既可以運用于分類,也可以運用于回歸。Bagging是集成學(xué)習(xí)常見的方法之一,它是一種從訓(xùn)練數(shù)據(jù)集中隨機抽取部分樣本來生成決策樹的方法(Breiman L,1996)。Ho利用隨機子空間方法通過對特征變量隨機選取子集來生成每棵決策樹(Ho T K.1998)。Amit和Geman定義了很多集合屬性以及從這些隨機選擇中尋找每個結(jié)點的最優(yōu)分割(Amitand Geman,1997)。該方法對隨機森林的提出產(chǎn)生了重要影響(Breiman L.2001)。Oshiro等分析了隨機森林中是否存在最優(yōu)的子模型數(shù)目(Oshiro et al.2012)。Biau等詳細(xì)描述了隨機森林的最新理論和研究進(jìn)展(Biau G,Scornet E.2016)。隨機森林解決了決策樹性能瓶頸問題,對噪聲和異常值有較強的容忍性,大量的理論和實證研究都表明其有很好的預(yù)測準(zhǔn)確率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010016709.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





