[發明專利]一種基于凸邊界的學習樣本抽取方法在審
| 申請號: | 201711314980.2 | 申請日: | 2017-12-12 |
| 公開(公告)號: | CN108052592A | 公開(公告)日: | 2018-05-18 |
| 發明(設計)人: | 袁玉波;顧依依;談詢滔;阮彤 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;G06N99/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 凸邊 學習 樣本 抽取 方法 | ||
本方法公開了一種基于凸邊界的學習樣本抽取方法。目標是提升智能分類系統的效率,減少機器學習訓練樣本的數量。本方法核心技術包括:第一、對用戶給出的數據庫的預切割技術,包括缺失值和異常值處理,以及數據集合的預切割工作;第二、類別集合的中心化,引入樣本凸集合的概念,給出類別樣本索引;第三、凸邊界樣本抽取,每個象限內,根據邊界寬度抽取邊界樣本。此方法可以提升智能分類系統的機器學習性能。通過5類常用的數據分類算法在20個UCI數據庫上的試驗結果表明,通過邊界樣本的抽取方法得到的邊界樣本是有效的,在系統的準確率變化范圍內,學習樣本數量大幅減少,效率顯著提升。
技術領域
本發明主要涉及人工智能技術,具體涉及一種基于凸邊界的學習樣本抽取方法。
背景技術
隨著大數據時代的來臨,給數據驅動的各種智能系統的研究和設計帶來了深刻的變化。尤其是人工智能的核心技術——機器學習,成為了研究的熱點。而學習樣本的質量,即學習樣本中的缺失值、異常值、冗余樣本、樣本數量,都將嚴重影響到機器學習的性能,如何選擇高質量的學習樣本集合,成為一個關鍵的研究課題。在此問題的驅動下,本文的研究目標是提出有效地從原始數據庫中抽取學習樣本的新方法。
學習樣本的抽取技術是指對用于機器學習的學習樣本進行主動選擇的過程,是機器學習中一項必不可少的技術。學習樣本的主動選擇是選擇有意義的樣本,而采樣,如常用的隨機采樣是選擇代表性的樣本,這二者之間是存在區別的。例如,在0-99之間有50個數據,這50個數據分布在0-49之間有1個數據0,50-99之間有49個數據。對于隨機采樣,數據0和其余49個數據被選擇到的概率是相等,保證了樣本的代表性;而對于樣本抽取來說,是要選擇有意義的樣本,即如果數據0的存在對于原始數據集是有意義的,就要在抽取樣本的過程中選擇它,如果對于原始數據集是無意義、甚至對于原始數據集來說是一個噪聲數據,那么在抽取樣本的過程中就不會選擇它。也就是,樣本抽取要通過某種規則從原始數據庫中選擇一個具有意義的、樣本數量較少但是包含信息盡可能多的子集作為機器學習的學習樣本。使得在機器學習建模時的運行速度快、內存開銷少,提升機器學習的效率。并且得到的模型的性能不僅比隨機選擇要好,而且要和使用原始訓練集得到的性能差不多,甚至更好。這也是本方法的研究意義。
本方法對于原始數據庫中異常值的處理選擇直接刪除包含異常值的樣本,在此之前需要對異常值樣本進行識別。一般對于異常值的處理方法有如下幾種:3σ探測方法、散點圖、四分位數展布法。本方法對異常值的識別選用基于四分位數思想的箱型圖對異常值進行檢測。它的優勢在于不需要數據服從某種特定的分布,它是根據實際的數據來繪制箱型圖的。在箱型圖中,異常值定義為大于Q1+1.5IQR或小于Q2-1.5IQR的值,其中IQR為四分位距。據此定義可知,箱型圖判斷異常值以四分位數和四分位距為標準,而四分位數具有一定的耐抗性,不會被異常值擾動,從而使用箱型圖來識別異常值比較客觀。
在凸幾何中,凸集是在凸組合下閉合的仿射空間的子集。更具體地說,在歐氏空間中,凸集是對于集合內的每一對點,連接該對點的直線段上的每個點也在該集合內。例如,立方體是凸集,但是任何中空的或具有凹痕的例如月牙形都不是凸集。將凸集合的概念應用到樣本抽取中,有如下定義:
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711314980.2/2.html,轉載請聲明來源鉆瓜專利網。





