[發(fā)明專利]一種基于數(shù)據(jù)分布的小樣本擴充對脫丁烷塔底丁烷濃度進行預測的方法有效
| 申請?zhí)枺?/td> | 201810402513.3 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108647272B | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設計)人: | 熊偉麗;畢略 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/2458 |
| 代理公司: | 哈爾濱市陽光惠遠知識產(chǎn)權代理有限公司 23211 | 代理人: | 林娟 |
| 地址: | 214000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數(shù)據(jù) 分布 樣本 擴充 丁烷 濃度 進行 預測 方法 | ||
1.一種基于數(shù)據(jù)分布的小樣本擴充對脫丁烷塔底丁烷濃度進行預測的方法,其特征在于,所述方法包括:
步驟1:對工業(yè)過程數(shù)據(jù)進行歸一化處理,即令x'=(x-xmin)/(xmax-xmin),其中x為原始訓練樣本,x'為歸一化處理后的訓練樣本,xmin和xmax分別為原始訓練樣本集中的最小值與最大值,所述工業(yè)過程數(shù)據(jù)的原始訓練樣本符合期望為μ、標準差為σ的對數(shù)正態(tài)分布,所述工業(yè)過程數(shù)據(jù)來自于脫丁烷塔過程;
步驟2:計算原始訓練樣本中每個ln(Yk)的值(其中k=1,...,m),m為原始訓練樣本數(shù),并找到原始訓練樣本中主導變量的最大值Ymax和最小值Ymin;所述主導變量為需要預測的變量;
步驟3:根據(jù)正態(tài)分布的3σ原則,將區(qū)間(μ-3σ,μ+3σ)作為隨機變量ln(Y)實際的取值區(qū)間,并且落在區(qū)間(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分別為2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;
令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,將原始訓練樣本以主導變量的大小為分類標準,等距離劃分為六組;
步驟4:統(tǒng)計ln(Yk)在六個區(qū)間的樣本個數(shù),若區(qū)間內(nèi)樣本個數(shù)不少于理論的分配比率,即分別不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%則不作處理;若區(qū)間內(nèi)樣本個數(shù)小于分配比率則進行樣本擴充,擴充步驟如下:
Step1:兩兩相互計算訓練樣本之間的相似度;
數(shù)據(jù)之間相似度的計算方法如下:
a,計算xq和xi之間的歐氏距離和角度,xq和xi為樣本集中的兩個樣本數(shù)據(jù),其中q=1,...,N,i=1,...,N,q≠i:
dqi=||xq,xi||2 (1)
其中,Δxq=xq-xq-1,Δxi=xi-xi-1 (3)
b,如果cosθqi≥0,計算相似度系數(shù)sqi:
式中,γ是介于0到1之間的權重系數(shù),如果cosθqi<0,則丟棄數(shù)據(jù)(xi,yi),計算得到的sqi也在0和1之間,且sqi越接近1,則表示xq和xi的相似度越高;
Step2:取相似度最大的若干組,將每組的2個數(shù)據(jù)取算術平均數(shù)得到新的樣本添加到原始訓練樣本中;
Step3:其他需要擴充的區(qū)間亦做上述擴充處理,最后得到擴充過后新的訓練樣本集;對相似度的閾值進行設置;將閾值設置為0.8,當閾值大于0.8表示兩個樣本符合相似度的要求;
步驟5:對進行樣本擴充后得到的訓練樣本集進行軟測量建模;
選擇高斯過程回歸模型作為軟測量模型;
給定訓練樣本集X∈RD×N和y∈RN,其中X=[xi∈RD]i=1,...,N,y=[yi∈R]i=1,...,N分別代表D維的輸入和輸出數(shù)據(jù);輸入和輸出之間的關系由式(5)產(chǎn)生:
y=f(x)+ε (5)
其中,f是未知函數(shù)形式;
對于一個新的輸入x*,相應的概率預測輸出y*的均值和方差如式(7)和式(8)所示:
y*(x*)=cT(x*)C-1y (7)
式中,c(x*)=[c(x*,x1),...,c(x*,xn)]T是訓練數(shù)據(jù)和測試數(shù)據(jù)之間的協(xié)方差矩陣,是訓練數(shù)據(jù)之間的協(xié)方差矩陣,I是N×N維的單位矩陣,c(x*,x*)是測試數(shù)據(jù)的自協(xié)方差;
根據(jù)協(xié)方差函數(shù)把輸出間的相關關系轉(zhuǎn)化成輸入數(shù)據(jù)之間的函數(shù)關系,所述協(xié)方差函數(shù)選擇高斯協(xié)方差函數(shù):
式中,v為控制協(xié)方差的量度,ωd代表每個成分xd的相對重要性;
對式(8)中的未知參數(shù)v,ω1,...,ωD和高斯噪聲方差的估計,通過極大似然估計得到參數(shù)
計算參數(shù)θ的值包括,將參數(shù)θ通過極大似然估計方法進行估計;用共軛梯度法得到優(yōu)化參數(shù);
步驟6:在獲得最優(yōu)參數(shù)θ后,對測試樣本x*,采用式(7)和式(8)估計高斯過程回歸模型的輸出值;
步驟7:在脫丁烷塔過程在訓練樣本和測試樣本分別為100個情況下,預測產(chǎn)品塔底丁烷濃度的在線預測值。
2.根據(jù)權利要求1所述的方法,其特征在于,通過分析數(shù)據(jù)的分布特征來確定樣本擴充的區(qū)間范圍,利用擴充數(shù)據(jù)完善建模對象在各階段的信息,并進一步重構(gòu)建模數(shù)據(jù)集,提升所建模型的預測精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經(jīng)江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810402513.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





