[發明專利]一種標簽共現的標簽聚類方法在審
| 申請號: | 201410457010.8 | 申請日: | 2014-09-10 |
| 公開(公告)號: | CN104216993A | 公開(公告)日: | 2014-12-17 |
| 發明(設計)人: | 李鵬;王婭丹;金瑜;劉宇;何亨 | 申請(專利權)人: | 武漢科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430081 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 方法 | ||
1.一種標簽共現的標簽聚類方法,其特征在于:包括首先進行以下定義,
一、定義一個標注矩陣,該矩陣Unxm是n×m型矩陣,n為標簽個數,m為資源個數,矩陣中的元素uiq表示標簽ti標注資源rq的頻度,此處的i取值為1,2,…,n,q取值為1,2,…,m;
二、定義一個共同標注矩陣,該矩陣Cn×n是n×n型矩陣,n為標簽個數,矩陣中的元素cij表示標簽ti和標簽tj共現頻度,如下式,
此處的i取值為1,2,…,n,j取值為1,2,…,n;其中,W(ti,tj)表示標簽ti和標簽tj共同出現的次數,當i=j時,W(ti,tj)為標簽ti標注過的資源數;
三、定義一個標簽重要度矩陣,該矩陣An×n是n×n型矩陣,n為標簽個數,矩陣中的元素aij表示標簽ti在所有m個資源內的重要度,即
此處的i取值為1,2,…,n,j取值為1,2,…,n;其中,Γ(ti)表示在m個資源中,與標簽ti共同出現過的標簽的個數;
四、定義一個相似度矩陣,該矩陣Sn×n是n×n型矩陣,n為標簽個數,矩陣中的元素sij表示標簽ti和標簽tj的特征向量相似度,即
其中,Ai、Aj表示標簽重要度矩陣中的第i、j個行向量;
然后基于定義執行以下流程,
步驟1,輸入聚類的類別數目K,標簽個數n,標簽集合T={t1,t2….tn},資源集合R,和標簽標注資源的關系集合A;初始化當前處理標簽序號i取值為1;轉到步驟2;
步驟2,計算標注矩陣的元素uiq,得到標簽與資源之間的關聯,進一步得到標簽ti和標簽tj共同出現的次數W(ti,tj),轉到步驟3;
步驟3,根據式(1),計算表示共現頻度的元素cij,轉到步驟4;
步驟4,根據式(2),計算表示重要度的元素aij,轉到步驟5;
步驟5,得到標簽ti的特征向量Ai(ai1,ai2….ain),轉到步驟6;
步驟6,令i=i+1,判斷ti是否屬于標簽集合T,如果屬于則返回步驟2,否則轉到步驟7;
步驟7,選擇K個標簽作為初始的聚類中心,轉到步驟8;
步驟8,初始定義變量newJ=0,oldJ=-1,轉到步驟9;
步驟9,計算newJ-oldJ的絕對值,如果結果大于等于0.00001,.轉到步驟10,否則轉到步驟14;
步驟10,根據式(3),計算每個標簽與K個聚類中心分別的相似度sij,轉到步驟11;
步驟11,根據計算出來的相似度,對每個標簽分別判斷與哪個聚類中心的相似度最大并將該標簽劃分到相應的類別中,轉到步驟12;
步驟12,計算每個類別中所有標簽特征向量的平均值,作為該類別新的聚類中心,轉到步驟13;
步驟13,令oldJ=newJ,計算新的準則函數值賦值給newJ,轉到步驟9;
步驟14,輸出n個標簽的聚類結果,結束。
2.根據權利要求1所述標簽共現的標簽聚類方法,其特征在于:步驟13中,準則函數的計算式為nj代表相應的類別中標簽個數,d(Aj,Zk)表示兩個特征向量之間的偏差的平方,Aj為相應類別中的標簽特征向量,Zk為相應類的聚類中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢科技大學,未經武漢科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410457010.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于內容的視頻檢索系統
- 下一篇:具有折疊撐桿的醫療床





