[發(fā)明專利]特征量化模型訓練、特征量化、數(shù)據(jù)查詢方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010181479.9 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN113408552A | 公開(公告)日: | 2021-09-17 |
| 發(fā)明(設計)人: | 方奕庚;穆亞東;唐小軍 | 申請(專利權)人: | 京東方科技集團股份有限公司;北京大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/903 |
| 代理公司: | 北京銀龍知識產(chǎn)權代理有限公司 11243 | 代理人: | 許靜;胡影 |
| 地址: | 100015 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 量化 模型 訓練 數(shù)據(jù) 查詢 方法 系統(tǒng) | ||
本發(fā)明實施例提供一種特征量化模型訓練、特征量化、數(shù)據(jù)查詢方法及系統(tǒng),該特征量化模型訓練方法包括:獲取多個源數(shù)據(jù)域;獲取每一所述源數(shù)據(jù)域的特征信息和標注信息;根據(jù)所有所述源數(shù)據(jù)域的特征信息和標注信息,對特征量化模型進行訓練,得到公共特征量化模型,其中,訓練過程中,從所述多個源數(shù)據(jù)域的特征信息中分解出公共特征信息和域?qū)S械奶卣餍畔ⅲ龉蔡卣餍畔樗龆鄠€源數(shù)據(jù)域共有的特征信息。本發(fā)明實施例中,使用多個源數(shù)據(jù)域的豐富的標注信息訓練得到公共特征量化模型,公共特征量化模型可用于標注信息匱乏的目標數(shù)據(jù)域的特征量化,從而提高特征量化模型在標注信息匱乏的數(shù)據(jù)域的特征量化性能。
技術領域
本發(fā)明實施例涉及數(shù)據(jù)處理技術領域,尤其涉及一種特征量化模型訓練、特征量化、數(shù)據(jù)查詢方法及系統(tǒng)。
背景技術
特征量化(feature quantization)是在計算機視覺、數(shù)據(jù)挖掘等人工智能相關領域中的一個重要技術。特征量化的目標是輸出包含濃縮后的原始信息(原始的圖像、視頻、文本等數(shù)據(jù)的特征)的精簡特征編碼(特征量化碼),同時能最大限度保持原始特征的表達能力。特征量化的意義在于,對于大規(guī)模數(shù)據(jù)集(如圖像搜索系統(tǒng)中的海量圖像數(shù)據(jù)),通過使用量化后的精簡特征編碼,能以更小的存儲和計算復雜度完成特定任務(如圖像搜索等)。例如,在圖像搜索領域,主流的圖像特征維度通常為上萬維,代表性視覺特征如局部聚合描述符(VLAD)、FisherVector或者深度網(wǎng)絡經(jīng)過全局平均池化后的特征向量。在進行圖像搜索等操作時,高維特征需要極高的存儲代價和計算復雜度。特征量化能在基本不損失精度的情況下,極大降低對存儲空間的需求和運行時刻的計算復雜度。特別的,對于百萬量級的圖像數(shù)據(jù)集,經(jīng)過特征量化操作以后,整個數(shù)據(jù)集的特征通常只有若干吉字節(jié)(GB),可以輕易讀入單臺服務器的內(nèi)存中,從而避免了耗時的云服務中的多機通信和內(nèi)存-外存之間的輸入輸出(I/O)代價。
傳統(tǒng)的特征量化算法包括K均值聚類等。這些算法通常是無監(jiān)督的,特征之間的距離或相似度計算常基于標準的歐氏距離或者余弦相似度。近年來,基于標注信息的特征量化算法逐步取得更大的關注,在實際應用中表現(xiàn)出更強大的性能。常見的標注信息的形式包括語義標簽(例如對圖像的語義類別給出一個或者多個標簽)、相似度標簽(例如指定兩張圖像是否相似、甚至具體的相似度數(shù)值)等。然而,在特定的目標數(shù)據(jù)域使用特征量化算法時,一種常見的問題是標注信息的缺乏。一方面,標注信息的獲取常需要人工標注,代價昂貴;另一方面,某些垂直領域應用的標注信息在本質(zhì)上是稀疏的,例如精細類別識別問題(fine-grained recognition)。從而難以保證特征量化算法的性能。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種特征量化模型訓練、特征量化、數(shù)據(jù)查詢方法及系統(tǒng),用于解決目標數(shù)據(jù)域的標注信息不足時,難以保證特征量化算法的性能的問題。
為了解決上述技術問題,本發(fā)明是這樣實現(xiàn)的:
第一方面,本發(fā)明實施例提供了一種特征量化模型訓練方法,包括:
獲取多個源數(shù)據(jù)域;
獲取每一所述源數(shù)據(jù)域的特征信息和標注信息;
根據(jù)所有所述源數(shù)據(jù)域的特征信息和標注信息,對特征量化模型進行訓練,得到公共特征量化模型,其中,訓練過程中,從所述多個源數(shù)據(jù)域的特征信息中分解出公共特征信息和域?qū)S械奶卣餍畔ⅲ龉蔡卣餍畔樗龆鄠€源數(shù)據(jù)域共有的特征信息。
可選的,所述根據(jù)所有所述源數(shù)據(jù)域的特征信息和標注信息,對特征量化模型進行訓練,得到公共特征量化模型包括:
根據(jù)所有所述源數(shù)據(jù)域的特征信息和標注信息,對特征量化模型進行訓練,得到公共特征量化模型和每一所述源數(shù)據(jù)域的域?qū)S械奶卣髁炕P汀?/p>
可選的,采用深度神經(jīng)網(wǎng)絡算法對所述公共特征量化模型和域?qū)S械奶卣髁炕P瓦M行訓練。
可選的,所述對特征量化模型進行訓練包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東方科技集團股份有限公司;北京大學,未經(jīng)京東方科技集團股份有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010181479.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





