[發明專利]負采樣方法和裝置有效
| 申請號: | 201710854316.0 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN108460396B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 王興光;林芬 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/35 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采樣 方法 裝置 | ||
1.一種基于多標簽模型的數據處理方法,其特征在于,所述方法包括以下步驟:
確定對多標簽模型進行訓練所采用的正樣本;
獲取所述正樣本與待選樣本之間的物理相似程度和內容相似程度;
其中,所述待選樣本的類型包括以下至少之一:文本、圖片、音視頻,當所述待選樣本的類型為文本時,所述物理相似程度為詞相似程度,所述內容相似程度為語義相似度;當所述待選樣本的類型為圖片時,所述物理相似度為像素相似程度,所述內容相似程度為描繪對象相似程度;當所述待選樣本的類型為音視頻時,所述物理相似度為音符相似程度,所述內容相似程度為旋律相似程度;
根據所述物理相似程度和內容相似程度,從所述待選樣本中選取用于所述多標簽模型訓練的負樣本;
通過訓練好的所述多標簽模型對待識別數據進行場景識別,得到所述待識別數據對應的場景類別,以執行針對所述場景類別的相應操作。
2.根據權利要求1所述的方法,其特征在于,所述獲取所述正樣本與待選樣本之間的物理相似程度和內容相似程度,包括:
根據所述正樣本,查詢第一相似度矩陣,得到所述正樣本與各個待選樣本之間物理相似程度;其中,所述第一相似度矩陣中的元素,用于指示所在行對應的樣本與所在列對應的樣本之間的物理相似程度;
根據所述正樣本,查詢第二相似度矩陣,得到所述正樣本與各個待選樣本之間內容相似程度;其中,所述第二相似度矩陣中的元素,用于指示所在行對應的樣本與所在列對應的樣本之間的內容相似程度。
3.根據權利要求2所述的方法,其特征在于,所述待選樣本為多個,所述正樣本是從所述待選樣本中確定出的,所述獲取所述正樣本與待選樣本之間的物理相似程度和內容相似程度之前,還包括:
生成多個樣本對;其中,每個樣本對包括所述多個待選樣本中的兩個,所述多個樣本對中的待選樣本不同;
計算每個樣本對中的兩個待選樣本之間的物理相似程度和內容相似程度;
根據每個樣本對中的兩個待選樣本之間的物理相似程度生成所述第一相似度矩陣;
根據每個樣本對中的兩個待選樣本之間的內容相似程度生成所述第二相似度矩陣。
4.根據權利要求3所述的方法,其特征在于,所述根據每個樣本對中的兩個待選樣本之間的物理相似程度生成所述第一相似度矩陣,包括:
確定第一相似度矩陣中各行對應的待選樣本,以及各列對應的待選樣本;
針對每一個樣本對,將所述樣本對中兩個待選樣本之間的物理相似程度作為所述第一相似度矩陣中兩個對稱元素取值;所述對稱元素所在行和列分別對應所述兩個待選樣本中的一個樣本。
5.根據權利要求3所述的方法,其特征在于,所述根據每個樣本對中的兩個待選樣本之間的內容相似程度生成所述第二相似度矩陣,包括:
確定第二相似度矩陣中各行對應的待選樣本,以及各列對應的待選樣本;
針對每一個樣本對,將所述樣本對中兩個待選樣本之間的內容相似程度作為所述第二相似度矩陣中兩個對稱元素取值;所述對稱元素所在行和列分別對應所述兩個待選樣本中的一個樣本。
6.根據權利要求1所述的方法,其特征在于,所述根據所述物理相似程度和內容相似程度,從所述待選樣本中選取用于所述多標簽模型訓練的負樣本,包括:
從所述待選樣本中,選取所述物理相似程度低于物理閾值和內容相似程度低于內容閾值的待選樣本作為所述負樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710854316.0/1.html,轉載請聲明來源鉆瓜專利網。





