[發明專利]樣本增強方法、模型訓練方法及系統在審
| 申請號: | 202110646519.7 | 申請日: | 2021-06-10 |
| 公開(公告)號: | CN113420799A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 王士波;陳露;吳永文;甘雪琴;鄭歡歡;胡益炯;宋菲 | 申請(專利權)人: | 北京宜能高科科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F30/27 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 劉偉 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 增強 方法 模型 訓練 系統 | ||
本發明公開一種樣本增強方法、模型訓練方法及系統,涉及數據處理技術領域,可提升樣本數據的數量和質量,并減少樣本生成時間。該樣本增強方法包括:劃分變量為獨立變量、部分關聯變量和剩余關聯變量;獨立變量數據隨機生成,根據獨立變量數據和指定公式計算部分關聯變量數據,以上述兩類數據作為輸入,采用簡化模型計算獲取剩余關聯變量數據;將上述三類數據合并作為嚴格機理模型模擬樣本輸入數據。根據歐式距離將所述樣本輸入數據分成多個子樣本集,對各子樣本集中的樣本排序,按照樣本順序,利用嚴格機理模型依次進行分步模擬,獲取樣本輸出數據,與相應的樣本輸入數據合并,獲得完整樣本數據。通過樣本可視化樣本分布,補充稀疏區域的樣本。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種樣本增強方法、模型訓練方法及系統。
背景技術
隨著工業大數據時代的來臨,基于數據驅動的建模方法在現代流程工業中的研究和應用引起了廣泛關注。
近些年,流程工業在信息化方面持續不斷投入,在線儀表、分析設備不斷投用,積累了海量的生產過程數據,為數據驅動的建模方法的應用打下了良好的數據基礎;大數據、深度學習等技術快速發展提供了豐富高效的算法,并且不斷進步,GPU、TPU等智能芯片性能不斷提升,為數據驅動建模的大規模行業應用打下了技術基礎。
雖然生產數據多,但由于裝置操作變化較小,導致數據多樣性少。另外數據分布不均衡,存在大量數據缺失或數據質量不高的區域。為了使模型能盡可能的覆蓋最優操作區域且能準確反映裝置的實時特性,需要擴大數據覆蓋范圍和均勻數據分布密度。
針對此需求,普遍采用嚴格機理模型模擬的方法對數據進行擴充。在此過程中,因為數據量大,所以通常采用隨機產生數據的方法產生模擬所需的輸入數據。對于流程復雜的裝置,這種方法存在模擬收斂率低、生產足量樣本耗時長的問題,另外數據分布不一定均勻。
發明內容
本發明的目的在于提供一種適用于煉油和化工裝置的樣本增強方法、模型訓練方法及系統,能夠提升樣本數據的數量和質量,同時降低時間成本。
為了實現上述目的,本發明的第一方面提供一種樣本增強方法,包括:
將變量劃分為獨立變量、部分關聯變量和剩余關聯變量;
根據歷史生產數據中每種變量對應的歷史數據,獲取每種變量對應的歷史數據分布范圍;
在每個獨立變量對應的分布范圍內隨機生成多個隨機數據,根據獨立變量對應的隨機數據計算出部分關聯變量對應的中間數據,然后采用預先訓練完成的簡化模型以隨機數據和中間數據作為輸入計算并判斷計算結果是否收斂,并在收斂時獲取剩余關聯變量對應的剩余數據;
將隨機數據、中間數據和剩余數據整理合并成作為后續模擬的輸入數據;
采用歐式距離對輸入數據進行聚類得到多組子樣本集,所述子樣本集中包括多個樣本,并對每組所述子樣本集中的樣本進行排序;
通過預先訓練完成的嚴格機理模型,對每個子樣本集中的樣本按照順序批量、分步進行模擬計算,得到輸出數據;
匯總并合并各樣本的輸入數據和對應的輸出數據,得到通過樣本增強獲取的多個完整樣本數據;
對獲取的多個樣本數據的分布范圍進行可視化分析,并對稀疏區域的樣本進行補充。
優選地,根據歷史生產數據中每種變量對應的歷史數據,獲取每種變量對應的歷史數據分布范圍的方法包括:
統計歷史生產數據中每種變量對應的歷史數據的上下限,并將上下限的范圍作為對應變量的歷史數據分布范圍。
優選地,在每個獨立變量對應的分布范圍內隨機生成多個隨機數據的方法包括:
基于每個獨立變量對應的讀取數據分布范圍均勻的隨機生成多個隨機數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京宜能高科科技有限公司,未經北京宜能高科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110646519.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新一代堵漏注漿材料
- 下一篇:氧化脫氫制取丁二烯熱回收系統及其使用方法





