[發明專利]面向AI應用的數據版本管理方法、裝置和計算機設備在審
| 申請號: | 202110548754.0 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN112988920A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 余躍;張禹;周悅;常峰;曾煒;田永鴻 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/27;G06F16/23 |
| 代理公司: | 長沙國科天河知識產權代理有限公司 43225 | 代理人: | 彭小蘭 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 ai 應用 數據 版本 管理 方法 裝置 計算機 設備 | ||
本申請涉及一種面向AI應用的數據版本管理方法、裝置和計算機設備。所述方法包括:通過獲取面向AI應用的待管理數據,由監控組件掃描,將待管理數據與已知數據集進行比對,標識出重復數據和新增數據;刪除重復數據,將待管理數據提交到本地倉庫,通過哈希圖結構建立新增數據和已知數據集的關聯信息,建立新增數據在本地倉庫中位置的索引信息,根據新增數據和關聯信息,得到新版本數據的版本信息;將新增數據、關聯信息、索引信息和版本信息上傳到遠程倉庫,完成待管理數據的增量式數據存儲。本發明實現了基于識別和去除重復基礎數據后單獨保存部分新增數據的數據增量存儲優化方法,支持數據共享、協同開發。
技術領域
本申請涉及計算機技術領域,特別是涉及一種面向AI應用的數據版本管理方法、裝置、計算機設備和存儲介質。
背景技術
AI定義為“系統地正確理解外部數據,并從此類數據中學習以及利用這些學習通過靈活的適應來實現特定目標和任務的能力。”隨著數字化越來越深刻地影響當今社會,我們能夠以前所未有的速度收集,例如數字、文本、音頻、圖像等。這些海量數據使模型能夠更快地學習,推動AI迅猛發展。
在軟件開發過程中,為了更有效地跟蹤記錄軟件開發過程,技術團隊往往會對軟件代碼及相關文檔進行版本管理,即存儲管理各個階段完成的代碼文檔并加以標識,良好的版本管理能夠幫助團隊快速定位和修復錯誤更改、實現同時開發以提高效率、清楚掌握團隊工作進度等。根據版本管理的發展歷史,可以分為3個階段:本地式、集中式和分布式三類版本管理系統。分布式版本管理作為當前使用最廣泛的系統,使用Peer-Peer模式,將代碼庫進行端到端的鏡像傳輸到開發本地,消除了集中式版本管理中的中心代碼庫,取而代之的是項目的每名開發者都擁有代碼副本和完整的開發歷史記錄。
與普通的應用軟件相比,AI應用的效果和質量更多地依賴于它所使用的AI模型和訓練數據,AI應用的版本也與其所使用的訓練數據版本具有對應關系。因此,如何更高效地管理數據版本以更好地配合AI應用的開發實踐是目前急需研究的技術點。
現有的數據版本管理工具主要采取存儲完整數據文件的方法,早期的版本控制系統,例如SVN,雖然支持代碼文件的增量管理,但是針對AI應用中的大規模數據管理效率低,時間長,且集中式版本管理存在單點故障等缺陷,存在效率低,效果不佳的問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高面向AI應用的數據版本管理效率的面向AI應用的數據版本管理方法、裝置、計算機設備和存儲介質。
一種面向AI應用的數據版本管理方法,所述方法包括:
獲取面向AI應用的待管理數據,通過監控組件將所述待管理數據與已知數據集進行比對,標識出重復數據和新增數據;
刪除所述重復數據,將所述待管理數據提交到本地倉庫,通過哈希圖結構建立所述新增數據和所述已知數據集的關聯信息,建立所述新增數據在所述本地倉庫中位置的索引信息,根據所述新增數據和所述關聯信息,得到新版本數據的版本信息;
將所述新增數據、所述關聯信息、所述索引信息和所述版本信息上傳到遠程倉庫,完成所述待管理數據的增量式數據存儲。
在其中一個實施例中,還包括:獲取面向AI應用的待管理數據,將所述待管理數據從工作區加載到緩存區后,通過監控組件將所述待管理數據與已知數據集進行比對,標識出重復數據和新增數據。
在其中一個實施例中,還包括:獲取面向AI應用的待管理數據,將所述待管理數據從工作區加載到緩存區后,通過監控組件將所述待管理數據與已知數據集進行比對,標識出重復數據和新增數據;所述已知數據集為預設的共有數據集或用戶先前提交的數據集。
在其中一個實施例中,還包括:刪除所述重復數據,將所述待管理數據提交到本地倉庫;
通過哈希圖結構建立所述新增數據和所述已知數據集的關聯信息,并將所述新增數據和所述關聯信息持久化存儲在所述本地倉庫中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110548754.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





