[發明專利]訓練樣本獲取方法和裝置在審
| 申請號: | 201711364519.8 | 申請日: | 2017-12-18 |
| 公開(公告)號: | CN108122002A | 公開(公告)日: | 2018-06-05 |
| 發明(設計)人: | 于福超;高睿;張延鳳 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練樣本 類簇 樣本 方法和裝置 訓練樣本集 聚類處理 建模 過濾 | ||
本發明提出一種訓練樣本獲取方法和裝置,其中,方法包括:對隸屬于同一類別的樣本進行聚類處理,得到類別的至少一個目標類簇;按照目標類簇的順序,循環從每個目標類簇中逐個選取訓練樣本;其中,在每次循環選取訓練樣本的過程中,從相鄰的目標類簇中選取非相似樣本作為訓練樣本;利用選取出的訓練樣本,構成類別的訓練樣本集。該方法通過循環從每個目標類簇中逐個選取訓練樣本,過濾掉相鄰的目標類簇之間的相似樣本,選取具有代表性的樣本,從而提高了建模后的模型的準確性,提高了模型的代表性。
技術領域
本發明涉及機器學習領域,尤其涉及一種訓練樣本獲取方法和裝置。
背景技術
在機器學習領域,當樣本數目較多時,通常采用隨機采樣的方式,從樣本中隨機選擇樣本作為訓練樣本。
由于是隨機選擇訓練樣本,因此這種獲取訓練樣本的方法,容易忽略有價值的樣本信息,從而影響建模的準確性,使建模后的模型不具有代表性。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的第一個目的在于提出一種訓練樣本獲取方法,通過循環從每個目標類簇中逐個選取訓練樣本,過濾相鄰的目標類簇之間的相似樣本,選取具有代表性的樣本,以實現提高建模后的模型的準確性,提高模型的代表性。
本發明的第二個目的在于提出一種訓練樣本獲取裝置。
本發明的第三個目的在于提出一種計算機設備。
本發明的第四個目的在于提出一種非臨時性計算機可讀存儲介質。
本發明的第五個目的在于提出一種計算機程序產品。
為達上述目的,本發明第一方面實施例提出了一種訓練樣本獲取方法,包括:
對隸屬于同一類別的樣本進行聚類處理,得到所述類別的至少一個目標類簇;
按照所述目標類簇的順序,循環從每個目標類簇中逐個選取訓練樣本;其中,在每次循環選取訓練樣本的過程中,從相鄰的所述目標類簇中選取非相似樣本作為訓練樣本;
利用選取出的所述訓練樣本,構成所述類別的訓練樣本集。
作為本發明第一方面實施例一種可能的實現方式,所述按照所述目標類簇的順序,循環從每個目標類簇中逐個選取訓練樣本,包括:
為所有目標類簇設置樣本選取的順序;
按序形成選取樣本的路徑;其中,從第一個目標類簇到最后一個目標類簇構成所述路徑;
按照所述路徑循環地從所述目標類簇中逐個選取訓練樣本。
作為本發明第一方面實施例一種可能的實現方式,所述從相鄰的所述目標類簇中選取非相似樣本的兩個樣本作為訓練樣本,包括:
識別從當前所述目標類簇中選取的樣本與從前一個所述目標類簇選取出的樣本是否為相似樣本;
如果非所述相似樣本,則將從當前所述目標類簇中選取出的所述樣本作為訓練樣本;
如果為所述相似樣本,則將從當前所述目標類簇中重新選取一個所述樣本,直到選取出的所述樣本與前一個所述目標類簇選取出的樣本非相似樣本。
作為本發明第一方面實施例一種可能的實現方式,所述識別從當前所述目標類簇中選取的樣本與從前一個所述目標類簇選取出的樣本是否為相似樣本,包括:
獲取當前所述目標類簇和前一個所述目標類簇的類簇中心點;
根據兩個所述類簇中心點,獲取當前所述目標類簇和前一個所述目標類簇之間的第一歐式距離;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711364519.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像識別方法及裝置
- 下一篇:一種基于深度神經網絡的弱小目標識別方法





