[發明專利]一種從鄰居實例中提取標簽相關性的方法及系統在審
| 申請號: | 201810991693.3 | 申請日: | 2018-08-29 |
| 公開(公告)號: | CN109086453A | 公開(公告)日: | 2018-12-25 |
| 發明(設計)人: | 施展;馮丹;楊蕾;戴凱航;方交鳳;劉上;曹孟媛;楊文鑫;陳碩;陳靜 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 李智;曹葆青 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 鄰居 樣本 決策樹 置信 標簽分類 標簽集合 分布信息 局部樣本 實例樣本 預測 準確率 成對 聚類 集合 | ||
1.一種從鄰居實例中提取標簽相關性的方法,其特征在于,包括:
(1)通過各實例樣本特征向量之間的歐氏距離衡量各實例樣本之間的相似性,以對各實例樣本按照親疏遠近進行聚類,其中,聚類后的實例樣本的標簽具有一致性或者相關聯;
(2)對于任意目標實例,從聚類后的實例樣本中找到與目標實例特征相近的k個鄰居實例樣本,從而得到目標實例的k個鄰居實例樣本的標簽集合;
(3)計算k個鄰居實例樣本的標簽百分比集合C={cl1,cl2,cl3,…,clm},其中,clm是根據k個鄰居實例樣本的標簽集合得到的目標實例含有第m個標簽的標簽百分比,m表示標簽個數;
(4)將標簽百分比作為實例樣本的特征建立分類器,構造標簽重要性的拓撲圖,自頂向下形成決策樹;
(5)綜合標簽集合的分布信息和決策樹預測目標實例中含有標簽集合中的標簽的置信分數。
2.根據權利要求1所述的方法,其特征在于,在步驟(2)中,從聚類后的實例樣本中找到與目標實例之間歐氏距離最小的k個鄰居實例樣本,從而得到目標實例的k個鄰居實例樣本的標簽集合。
3.根據權利要求1或2所述的方法,其特征在于,在步驟(3)中,目標實例含有第m個標簽的標簽百分比clm為:其中,Yj(j=1,2,...,k)是目標實例k近鄰的第j個近鄰的標簽集合,表示目標實例的第j個近鄰的標簽集合中是否含有標簽lm,若標簽lm∈Yj,則否則,
4.根據權利要求3所述的方法,其特征在于,在步驟(4)中,所述分類器的輸入空間為鄰居樣本的標簽百分比集合C={cl1,cl2,cl3,…,clm},對應的輸出空間為t={0,1},用決策樹判斷實例樣本中是否有標簽集合中的標簽,若存在,則t取值為1,若不存在則t為0。
5.提供了一種從鄰居實例中提取標簽相關性的系統,其特征在于,包括:
聚類模塊,通過各實例樣本特征向量之間的歐氏距離衡量各實例樣本之間的相似性,以對各實例樣本按照親疏遠近進行聚類,其中,聚類后的實例樣本的標簽具有一致性或者相關聯;
標簽集合獲取模塊,用于對于任意目標實例,從聚類后的實例樣本中找到與目標實例特征相近的k個鄰居實例樣本,從而得到目標實例的k個鄰居實例樣本的標簽集合;
標簽百分比計算模塊,用于計算k個鄰居實例樣本的標簽百分比集合C={cl1,cl2,cl3,…,clm},其中,clm是根據k個鄰居實例樣本的標簽集合得到的目標實例含有第m個標簽的標簽百分比,m表示標簽個數;
決策樹構建模塊,用于將標簽百分比作為實例樣本的特征建立分類器,構造標簽重要性的拓撲圖,自頂向下形成決策樹;
預測模塊,用于綜合標簽集合的分布信息和決策樹預測目標實例中含有標簽集合中的標簽的置信分數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810991693.3/1.html,轉載請聲明來源鉆瓜專利網。





