[發明專利]一種自動識別分類廣告類型的廣告分類方法無效
| 申請號: | 200610028305.9 | 申請日: | 2006-06-29 |
| 公開(公告)號: | CN101097570A | 公開(公告)日: | 2008-01-02 |
| 發明(設計)人: | 陳壯堅;徐麗 | 申請(專利權)人: | 上海唯客網廣告傳播有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 上海申匯專利代理有限公司 | 代理人: | 翁若瑩 |
| 地址: | 200063上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動識別 分類廣告 類型 廣告 分類 方法 | ||
1.一種自動識別分類廣告類型的廣告分類方法,其特征在于,用JAVA語言編制程序,運行在計算機內,并把KNN算法引入到基于空間向量模型的線性分析器,以便一次性的對關鍵詞相似的廣告進行自動分類,該分類方法在計算機內執行時依次含有以下步驟:
一、在學習階段:
步驟1:輸入廣告類型集;
步驟2:確定采用的屬性單位以及線性分類器類型;
步驟3:對廣告類型集進行預處理;
步驟4:屬性抽?。簩V告類型集進行索引,得到原始屬性集以及各廣告類型的頻度向量,廣告類型用D表示,屬性頻度用t表示,是指出現在廣告類型中且能夠代表該類型的基本語言單位,主要是由詞或者短語構成,廣告類型可以用屬性頻度的集合表示為D(T1,T2,…,Tn),其中Tk是屬性頻度,1<=k<=N;
步驟5:對原始屬性集進行采用現有降維操作,即頻度、權重,得到屬性集,降維最基本的思想,就是利用迭代的方法,在降維空間中定位特征向量,使得它們之間的距離和相異性被盡可能多的保留下來,為了達到這個目的,在迭代中需要不斷減小下面的平方誤差度量:
p=∑[d*(xi,xj)-f(d(xi,xj))]2,式中,
xi,xj是任意的不同樣本對(i≠j),d(xi,xj)是xi和xj之間的原始的相異程度,d*(xi,xj)是低維空間中轉換后的相異程度,f是一個單調變換函數;
步驟6:以類型為單位,合并各廣告的頻度向量,得到類型的輪廓描述頻度向量;
步驟7:對含有n個屬性值的廣告類型而言,通常會給每個屬性賦予一定的權重表示其重要程度,即D=D(T1,W1;T2,W2;…,Tn,Wn),簡記為D=D(W1,W2,…,Wn),為廣告類型D的向量表示,其中Wk是Tk的權重,1<=k<=N,權重的計算方法使用特征頻度-逆文檔頻度(TF*IDF)權重計算方法,TF*IDF方法使用詞匯的出現頻率來近似代表其重要程度,公式為
其中Wij表示詞匯Term?i在廣告Document?j的權重,Tf(tj,dj)表示i在j中出現的頻率,df(ti)表示含有詞匯i的廣告的出現次數。M是所有廣告的數目;
步驟8:在向量空間模型中,兩個概念D1和D2之間的內容相關度Sim(D1,D2)使用向量之間夾角的余弦值表示,公式為:
步驟9:根據下式,構建相應的線性分類器
其中表示概念是否屬于分類cj,取值為0或1,表示概念是否屬于分類cj,表示測試概念和周圍概念的相似程度,使用(8)提到的空間向量模型相似公式來表示,bj是分類的閥值,需要通過反復的調試才能得到較好的值;
步驟10:用一部分測試類型作為待分類類型,按照分類階段的步驟對上一步驟得到的分類器進行測試,優化分類器的性能;
學習階段結束;
二、在分類階段:
步驟1:輸入待分類廣告類型(集);
步驟2:按學習階段相同的方法對待分類廣告進行預處理;
步驟3:根據學習階段建立的屬性集為待分類廣告建立索引,得到廣告類型權重向量,見學習階段步驟7;
步驟4:計算待分類廣告的權重向量;
步驟5:按分類器進行自動分類,見學習階段步驟9得到分類結果;分類階段結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海唯客網廣告傳播有限公司,未經上海唯客網廣告傳播有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610028305.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種瀝青煙氣焚燒爐
- 下一篇:一種全自動燈泡生產機





