[發明專利]一種基于集成TSK模糊分類器的眾包質量提升的方法有效
| 申請號: | 202010039850.8 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111444937B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 蔣云良;張雄濤;胡文軍;鄔惠峰 | 申請(專利權)人: | 湖州師范學院 |
| 主分類號: | G06F18/2413 | 分類號: | G06F18/2413;G06F18/214;G06F18/2337;G06N20/20 |
| 代理公司: | 杭州中利知識產權代理事務所(普通合伙) 33301 | 代理人: | 韓洪 |
| 地址: | 313000 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 tsk 模糊 分類 質量 提升 方法 | ||
1.一種基于集成TSK模糊分類器的眾包質量提升的方法,其特征在于:依次包括以下步驟:
S1.利用含有標簽噪音的兩分類數據集構建多個TSK-noise-FC模糊子分類器,在挑選出的不含噪音數據的驗證集上產生多個增強屬性,從而生成增強驗證集;
S2.利用經典的模糊聚類算法FCM算法對增強驗證集進行聚類,形成含有標簽的多代表點數據,記做數據字典,利用生成的數據字典,對含有標簽噪音的數據進行快速矯正,對于每一個含噪音數據的眾包數據,找到其最近的代表點,該代表點的標簽就是預測的結果;
所述TSK-noise-FC模糊分類器所采用的算法1為:
a)算法1的輸入:第l個訓練子集對應的標簽集其中xi∈Rd,yi∈{-1,+1,0},i=1,2,…,Nl,模糊規則數Kl,參數ε=(ε1,ε2,…,εN-M),εi=ε,i=1,2,…,N-M;
b)算法1的輸出:模糊規則和子分類器的輸出函數
c)算法1的學習過程如下:
c1)通過從集合{0,0.25,0.5,0.75,1}隨機選擇一個特征值,構造規則組合矩陣表示五個高斯函數中哪一個被選擇;
c2)通過隨機選擇一個正數,構造核寬度矩陣
c3)根據規則組合矩陣和核寬度矩陣,構造每一條模糊規則的模糊隸屬度,利用公式(1)計算,并且
其中j=1,2,…,d,k=1,2,…,Kl,歸一化并構造矩陣Xg
第l個TSK-noise-FC?TSK模糊分類器的前件參數可計算得出;
c4)根據公式(3),計算后件參數ag
其中α,β,γ是拉格朗日乘子,在公式(4)求得
其中,Q=[qij](2N-M)*(2N-M)為核矩陣,
f=(y,-ε,-ε),y=(y1,y2,…,yM),ε=(ε1,ε2,…,εN-M),εi=ε,i=1,2,…,N-M
ζ=(α1,…,αM,βM+1,…,βN,γM+1,…,γN)T
c5)計算第l個TSK-noise-FCTSK模糊子分類器的輸出
yl=Xgag?(5);
該方法所采用的算法2具體為:
a)算法2的輸入:訓練數據Dtr=[Xtr?Ytr],驗證數據Dv=[Xv?Yv],其中Xtr和Xv代表數據,Ytr和Yv代表標簽,分類器個數L,K1,K2,…,KL表示每一個子分類器的模糊規則數;
b)算法2的輸出:代表性中心點及其標簽;
c)算法2的訓練過程:
c1)初始化
從兩分類訓練數據集Dtr中隨機抽取各子分類器的訓練子集D1,D2,…,DL,并且D1∪D2∪……∪DL=Dtr,在對應標簽Y1,Y2,…,YL中加入噪音標簽,對于錯誤標簽,翻轉其對應的標簽值,對于不確定的標簽,其對應的標簽值設置為0;
c2)以并行學習的方式學習第L個TSK-noise-FC模糊子分類器:
c2.1)為每一個子分類器指派模糊規則數,
c2.2)通過調用算法1,并行生成L個子分類器,
c2.3)輸出L個子分類器的輸出函數F1(x),F2(x),......,FL(x)并將其值作為源數據的增強特征;
c3)生成增強驗證數據集:
計算驗證數據集的每一個樣本的輸出函數值F1(x),F2(x),......,FL(x),生成增強驗證數據集其中表示源數據,Xv表示增強數據;
d)生成代表性中心點及其標簽:
在增強驗證數據集上調用FCM生成代表性中心點及其標簽;
e)測試過程:
e1)對于含有噪音的眾包數據,在代表性中心點上利用KNN對其標簽進行快速矯正,
e2)輸出矯正后的眾包數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖州師范學院,未經湖州師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010039850.8/1.html,轉載請聲明來源鉆瓜專利網。





