[發明專利]一種基于選擇性集成分類器的數據打標簽方法在審
| 申請號: | 201710171617.3 | 申請日: | 2017-03-22 |
| 公開(公告)號: | CN107133258A | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 楊旭川;張桂林 | 申請(專利權)人: | 重慶允升科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 重慶創新專利商標代理有限公司50125 | 代理人: | 宮兆斌 |
| 地址: | 401120 重慶市渝北*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 選擇性 集成 分類 數據 標簽 方法 | ||
技術領域
本發明屬于數據分類技術領域,特別是涉及一種數據打標簽的方法。
背景技術
目前多數工業網站都有自有的分類標簽體系,抓取這些網站的數據后,必須對標簽進行歸一化。標簽的準確性關系到后續搜索和推薦業務的效果。現有技術中,通常通過聚類算法這一單一的分類方法進行打標簽,從而導致打標簽的準確度不高。
因此本領域技術人員致力于開發一種準確度更高的數據打標簽方法。
發明內容
有鑒于現有技術的上述缺陷,本發明所要解決的技術問題是提供一種準確度更高的數據打標簽方法。
為實現上述目的,本發明提供了一種基于選擇性集成分類器的數據打標簽方法,包括以下步驟:
1)生成數據訓練集:從各個網站抓取工業商品詳細數據,生成數據訓練集,用于選擇性集成分類器的基礎數據;
2)文本預處理:對文本進行分詞,過濾停用詞,同義詞轉化,過濾高頻詞和低頻詞;
3)文本向量化:將文本轉化為向量的代數建模過程;
4)利用布爾矩陣存儲集成分類器對預處理的文本進行分類;
5)從布爾矩陣中篩選出分類性能較好的基分類器構成最終的集成分類器:根據各種基分類器的分類支持度、分類難度、分類強度、分類精準度集成選擇性集成分類器;
6)建立標簽庫:建立每個分類與標簽的映射關系;
7)接收到選擇性集成分類器返回的分類結果,根據分類結果獲取分類的標簽。
較佳的,步驟4)按以下步驟實現:
51)從訓練集中訓練基分類器,再以數據集中的樣本為行,基分類器為列,基分類器對樣本的分類結果為值來構建分類布爾矩陣;其中基分類器按照分類精度排序,分類結果正確值為1,錯誤則為0;
52)計算行值數組,再從數組從取出重復次數最多的數值,將其對應的基分類器添加到候選集成分類器中。當重復次數一樣時取較大值;
53)將添加到候選集成分類器的分類器對應的列置0;
54)候選集成分類器評估系統:選擇具有最大評估值的候選集成分類器;評估函數主要集成分類器正確分類的樣本數,基分類器的平均分類精度以及集成分類器的大小三個方面對候選集成分類器進行評估,計算公式(a)為
其中,Feva(I)表示評估函數,I表示任意候選集成分類器,|I|為候選集成分類器中基分類器的個數即集成分類器的大小,Supp(ci)為基分類器ci的支持度即此分類器能夠正確分類的比例,Accu(ci)為基分類器的分類精度;
其中,基分類器的支持度為基分類器可以正確分類的樣本數與樣本總數的比值,其計算公式(b)為:
Supp(ci)=R(ci)/D(b)
其中,Supp(ci)表示基分類器ci的支持度,R(ci)為被基分類器正確分類的樣本數,D為數據集D中的樣本總數;
其中,分類精度表示基分類器能夠正確分類樣本的能力,其值等于分類器的支持度和樣本的分類強度的乘積;基分類器的支持度和樣本的分類強度越高,則該基分類器的分類精度越高,分類性能越好.其計算公式(c)為:
Accu(ci)=Stre(ci)×supp(ci)(c)
其中,Accu(ci)為基分類器的分類精度;Stre(ci)為基分類器ci的分類強度;supp(ci)表示基分類器ci的支持度;
其中,分類強度用來描述基分類器的分類能力;如果一個基分類器能夠正確分類的樣本普遍具有較大的平均分類難度,則稱該基分類器具有較高的分類強度,否則,稱該基分類器具有較低的分類強度,其計算公式(d)為:
其中,Stre(ci)表示基分類器ci的分類強度,Hard(di)為樣本di的分類難度,D為數據集中的樣本總數;
其中,分類難度表示樣本被分類器正確分類的難易程度;如果一個樣本能夠被多數基分類器正確分類,則稱該樣本具有較小的分類難度,否則稱該樣本具有較大的分類難度.其計算公式(c)為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶允升科技有限公司,未經重慶允升科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710171617.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于中心連通子圖的相似實體識別方法及系統
- 下一篇:一種搜索方法和裝置





