[發明專利]一種基于特征聚類和標簽相似性的標簽增強方法在審
| 申請號: | 202110088305.2 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112766383A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 蔣文田;楊柏林;馬希驁 | 申請(專利權)人: | 浙江工商大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 杭州奧創知識產權代理有限公司 33272 | 代理人: | 王佳健 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 標簽 相似性 增強 方法 | ||
1.一種基于特征聚類和標簽相似性的標簽增強方法,其特征在于該方法包括以下步驟:
步驟1:給定多標簽樣本的集合M,將集合M分成兩部分,一部分是表示特征的集合F,另一部分表示標簽的集合L;
步驟2:對集合M進行預處理,主要包括數據缺失值處理、數據歸一化;
步驟3:通過一種基于特征聚類和標簽相似性的方法找到樣本a的鄰近樣本集合S;
步驟4:確定鄰近樣本集合S之后,通過標簽權重的方法將樣本a的標簽從多標簽數據狀態,轉化成標簽分布的標簽描述度;
步驟5:對所有的樣本重復步驟3和4,得到標簽分布的集合D。
2.根據權利要求1所述的一種基于特征聚類和標簽相似性的標簽增強方法,其特征在于:步驟2中,數據缺失值處理和數據歸一化具體是:
所述數據缺失值處理采用缺失值填充,所述缺失值填充是對每一列的缺失值填充當列的眾數;
所述數據歸一化是將數據映射到指定的范圍,具體是對原始數據線性變換,使結果值映射到[0-1]之間。
3.根據權利要求1所述的一種基于特征聚類和標簽相似性的標簽增強方法,其特征在于:步驟3中所述的基于特征聚類和標簽相似性的方法具體是:
通過計算特征聚類得到集合S1,通過計算標簽相似性得到集合S2;將在集合S1和集合S2都出現的樣本添加到鄰近樣本集合S中;
所述的特征聚類是指計算樣本a的特征與其它樣本的特征之間的距離,如果某個樣本b的特征與樣本a的特征之間的距離小于閾值,將樣本b的序號加入到集合S1中;
所述的標簽相似性是指樣本a的標簽與其它樣本的標簽之間的相似性,如果某個樣本b的標簽與樣本a的標簽之間的距離大于閾值,將樣本b的序號加入到集合S2中。
4.根據權利要求3所述的一種基于特征聚類和標簽相似性的標簽增強方法,其特征在于:所述距離采用以下公式計算:
其中k=2,即歐式距離,ai,bi表示樣本a,b的特征,p表示特征的個數。
5.根據權利要求3所述的一種基于特征聚類和標簽相似性的標簽增強方法,其特征在于:所述的標簽相似性采用杰卡德系數,采用以下公式計算:
其中A表示樣本a的標簽,B表示樣本b的標簽。
6.根據權利要求1所述的一種基于特征聚類和標簽相似性的標簽增強方法,其特征在于:步驟4中標簽權重的方法具體是:
根據鄰近樣本集合S中所有樣本的標簽來構建矩陣;
統計矩陣中所有標簽為1的個數,記為X;
統計矩陣每一列標簽為1的個數,使用向量表示為:Y={y1,y2,…,yq};
則標簽權重LW表示為:
對標簽A進行權重化,得到Z:
對Z進行歸一化操作,得到LD作為樣本a的標簽分布的標簽描述度,q表示標簽的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工商大學,未經浙江工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110088305.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:PYL3蛋白突變體及其應用
- 下一篇:數據加載方法、裝置及存儲介質





