[發明專利]大批量制作機器學習樣本剪裁標記一體化方法有效
| 申請號: | 201811537324.3 | 申請日: | 2018-12-15 |
| 公開(公告)號: | CN109815977B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 王萍;種洋;王港;莊碩;王瓊 | 申請(專利權)人: | 天津大學;中國電子科技集團公司第五十四研究所 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06T3/40;G06F3/0482;G06F3/04845;G06F3/0487;G06F9/451 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大批量 制作 機器 學習 樣本 剪裁 標記 一體化 方法 | ||
本發明公開了一種大批量制作機器學習樣本剪裁標記一體化方法,包括以下步驟:(1)對于尺度大于500Kb而不能直接進行標記的原始圖片,使用人機交互界面對原始圖片進行剪裁操作,形成多張能直接進行標記的樣本圖片;(2)對步驟一得到的多個樣本圖片進行標記,每張樣本圖片均具有標記框;(3)保存每張樣本圖片的標記框的位置和大小,并生成xml文件。能方便快捷的進行原始樣本的剪裁并調整樣本尺度的工作,當原始圖片中含有多個可訓練的機器樣本目標時可全部裁剪并規范化樣本命名和尺度大小;在裁剪完成后訓練樣本的基礎上,可直接進行訓練目標的標記工作,鼠標和鍵盤的有效配合能極大提高標記效率,快速完成機器學習樣本的制作。
技術領域
本發明方法涉及機器學習所需標簽樣本的制作方法,尤其涉及大批量需要人工標記的較為方便的樣本標記制作方法。
背景技術
樣本制作作為機器學習和深度學習技術的前期準備工作,具有耗時耗力但對機器學習訓練后的模型影響極大的特點。尤其在現在的大數據時代,大批量的數據如何規整化整理成機器學習框架直接使用的樣本更加困難,因數據量的大幅提高,每一份樣本制作流程中微小的優化就可能節省大量的時間。因此合理使用鍵盤鼠標,優化樣本制作的基本流程成為關鍵問題。
一般機器學習框架所需要的圖像類樣本,是大小合理、包含所訓練目標的圖片和記載該圖片中訓練目標位置和大小信息的文本文件。樣本的合理尺度約為100kb左右,記載標記信息的文本文件多為xml類型,然而原始圖片數據因來源不同而沒有統一的規格,有一部分的原始圖片數據尺寸較大,不能直接進行樣本的標記,需進行裁剪。大部分機器學習應用者在實際制作樣本時只能根據自己的需求臨時編寫工具,因其臨時工具功能的有限性可能導致原始數據不能有效利用,并且費時費力。如果有完善的樣本制作工具直接使用,會大大提高樣本制作的效率。
現有技術中至少存在以下缺點和不足:
(1)當處理尺寸較大的圖片時,大部分人直接進行切割,損害了部分可制作成樣本的數據。
(2)大部分自己編寫的工具操作較為繁瑣,易引起誤操作,不能合理利用鼠標鍵盤,耗時費力。
發明內容
針對現有技術,本發明提供了一種更加易用的大批量制作機器學習樣本剪裁標記一體化方法,該方法利用Qt框架編寫軟件,以支持完整的樣本制作,適用于不同的原始圖片數據,更加高效的利用鼠標鍵盤,達到快速制作大批量樣本的目的。
為了解決上述技術問題,本發明提出的一種大批量制作機器學習樣本剪裁標記一體化方法,包括以下步驟:
步驟一、對于尺度大于500Kb而不能直接進行標記的原始圖片,使用人機交互界面對原始圖片進行剪裁操作,形成多張能直接進行標記的樣本圖片;
步驟二、對步驟一得到的多個樣本圖片進行標記,每張樣本圖片均具有標記框;
步驟三、保存每張樣本圖片的標記框的位置和大小,并生成xml文件。
進一步講,本發明所述的大批量制作機器學習樣本剪裁標記一體化方法,其中,步驟一包括以下步驟:
步驟1-1、讀取原始圖片信息,獲得該原始圖片數據的大小,分配能容納該原始圖片的內存,讀入QImage類型的原始圖片數據,并保存在內存中;
步驟1-2、將內存中QImage類型的數據轉化為QPixmap類型的數據,并在可縮放的QScrollArea組件中顯示,利用Qt框架中的事件過濾器機制進行滾輪函數的重新定義,使圖片隨滾輪的滾動以鼠標位置為中心進行縮放;
步驟1-3、當找到符合滿足機器學習樣本要求的原始圖片位置后,響應鍵盤的空格信號,由QRubberband派生類生成半透明的子窗口,用來顯示要裁剪的位置,并在子窗口的四角放置可更改窗口大小的QSizeGrip組件,利用鼠標進行快速調整窗口大小;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學;中國電子科技集團公司第五十四研究所,未經天津大學;中國電子科技集團公司第五十四研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811537324.3/2.html,轉載請聲明來源鉆瓜專利網。





