[發明專利]一種基于分類效用的開集分類方法有效
| 申請號: | 201911352812.1 | 申請日: | 2019-12-25 |
| 公開(公告)號: | CN111191033B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 蔡毅;李澤婷 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/241 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 裴磊磊 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分類 效用 方法 | ||
1.一種基于分類效用的開集分類方法,其特征在于,包括步驟:
輸入數據集,并對數據集進行預處理;
采用特征提取器將數據轉換為特征;
采用訓練集的特征訓練一個可增量學習少樣本分類器;
對于一條新數據,對其進行預處理后采用特征提取器提取特征;
將新數據的特征輸入到分類器中,尋找已知類別中分類分數最高的一個類別,并計算分類效用,特征分為連續型特征和離散型特征,只針對連續性特征的分類效用,包括:
選取與新數據的特征相對應的分類效用;
以新數據的特征作為分類器的輸入,預測新數據屬于已知類別中最可能的類別;
將預測結果與已知分類結果進行合并;
根據合并后的特征矩陣統計n+1個樣本中每一維特征的標準差,存儲未分類前的標準差向量;
根據合并后的分類結果,按照類別劃分數據,統計合并后特征矩陣中每個類別每一維特征的標準差;
使用數據集中每個類別的樣本數和數據集總的樣本數估計每個類別出現的概率;
將得到的第k個類別出現的概率、未分類前的標準差向量和標準差矩陣代入分類效用計算公式中,得到將新數據分到已知類別的分類效用;
連續型特征的分類效用,計算公式為:
其中,I為特征的個數,K為已知類別的個數,σik表示第k個類別內第i維特征的標準差,σip表示未分類前所有數據第i維特征的標準差,P(ck)表示第k個類別出現的概率;
將新數據單獨作為一個類別,采用新數據的特征計算其分類效用,具體為:
預測新數據屬于未知類別;
將預測結果與已知分類結果進行合并;
根據合并后的分類結果,按照類別劃分數據,統計合并后特征矩陣中每個類別每一維特征的標準差;
使用數據集中每個類別的樣本數和數據集總的樣本數估計每個類別出現的概率;
得到的第k個類別出現的概率、未分類前的標準差向量和標準差矩陣代入分類效用計算公式中,得到將新數據分到新類別的分類效用;
比較已知類別與新類別情況下的分類效用大小,當已知類別的分類效用較大時,將新數據作為已知類別的一個樣本;當已知類別的分類效用較大時,將新數據作為一個新類別,并對新類別進行增量學習,更新分類器;
對于新到來的新數據,重復提取特征并計算分類效用的步驟,不斷增強分類器,增加分類器處理的類別數據。
2.根據權利要求1所述的方法,其特征在于,數據集預處理包括去除數據中的非文本部分、分詞、去除停用詞,對于英文語料,還需要對英文單詞進行詞干提取或詞型還原、轉換大小寫。
3.根據權利要求1所述的方法,其特征在于,所述特征提取器包括但不限于人工構建的特征提取器、無監督的特征提取器和有監督的神經網絡特征提取部分。
4.根據權利要求1所述的方法,其特征在于,所述分類器采用注意吸引子網絡。
5.根據權利要求1所述的方法,其特征在于,由于分類效用中的計算要求標準差不能為零,對于標準差為零的情況用極小值代替。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911352812.1/1.html,轉載請聲明來源鉆瓜專利網。





