[發明專利]基于二元切詞和支持向量機的商品自動分類方法有效
| 申請號: | 201310201322.8 | 申請日: | 2013-05-27 |
| 公開(公告)號: | CN103294798A | 公開(公告)日: | 2013-09-11 |
| 發明(設計)人: | 許大倫;毛穎;張立群 | 申請(專利權)人: | 北京尚友通達信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許志勇 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 二元 支持 向量 商品 自動 分類 方法 | ||
技術領域
本發明涉及數據挖掘領域,具體地說,是涉及一種基于二元切詞和支持向量機(Support?Vector?Machine,SVM,一種自動學習型分類算法)的商品自動分類方法。
背景技術
數據挖掘(Data?mining),一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息的過程。分類,則是數據挖掘中的一個重要環節。
隨著電子信息技術的飛速發展,數據挖掘已經深入到各個領域,尤其對于電子商務領域,高效的商品自動分類方法對管理電子商務中海量的商品信息至關重要。目前,有多種商品自動分類方法,如:基于邏輯規則的決策樹方法、基于統計關聯的樸素貝葉斯或貝葉斯網絡方法、基于感知器的神經網絡方法、基于實例學習的k近鄰方法以及基于向量空間的支持向量機方法等,據文獻報道,上述常用方法的分類準確率在80%左右。
在現有技術中,由于支持向量機方法具有分類速度快、結果準確度高的優點而被廣泛運用。
但是,該方法在實際應用中的效果主要取決于特征空間的構造,如果特征空間太小以至數據線性不可分,就必須采用非線性核函數,這會導致訓練時間長,效果不理想等問題。
同時,商品的中文標題包含了多方面的特征信息(如廠家品牌、商品名稱、規格型號以及價格),它們與商品分類的相關性大小不同,理論上作區別處理會有利于提高商品分類的準確率。但由于信息量巨大,要構建和維護這樣一個產品特征信息庫的成本很高,計算量巨大,實際操作性差。
因此,如何解決現有技術中難以構建產品特征信息庫以及由于特征空間構造而導致商品自動分類方法訓練時間長且效果不理想,便成為亟待解決的技術問題。
發明內容
本發明所要解決的技術問題是提供一種基于二元切詞和支持向量機的商品自動分類方法,以解決現有技術中難以構建產品特征信息庫以及由于特征空間構造而導致商品自動分類方法訓練時間長且效果不理想的問題。
為解決上述技術問題,本發明提供了一種基于二元切詞和支持向量機的商品自動分類方法,其特征在于,包括:
對于訓練集合中的所有商品標題進行二元切詞處理構造特征詞庫;
構造商品分類集合,同時根據所述特征詞庫將商品標題表示為特定向量,由該特定向量和商品所屬分類生成訓練數據,針對該訓練數據采用序貫對偶方法進行參數優化得到最佳分類向量;
計算所述最佳分類向量與待分類商品的標題所表示的特定向量的內積,挑選最大內積結果對應的分類作為該商品所屬的分類。
優選地,其中,所述對商品標題進行二元切詞處理構造特征詞庫,進一步為:對訓練集合中的所有商品標題進行二元切詞后統計詞頻,挑選頻率較高的詞構造特征詞庫。
優選地,其中,所述訓練集合,進一步包含某一電子商務網站中所有的商品標題;所述特征詞庫,進一步包含經過二元切詞處理后所得到的反映商品信息的特征詞。
優選地,其中,所述根據所述特征詞庫將商品標題表示為特定向量,進一步為:將訓練集中任一商品標題進行二元切詞后所得到的特征詞的次數組合表示為n維向量。
優選地,其中,所述計算所述最佳分類向量與待分類商品的標題所表示的特定向量的內積,進一步為:將待分類商品標題進行二元切詞后所得到的特征詞的次數組合表示為n維向量,計算該n維向量與所述最佳分類向量的內積。
與現有技術相比,本發明所述的一種基于二元切詞和支持向量機的商品自動分類方法,達到了如下效果:
1)本發明對商品標題進行二元切詞處理,極大提升了特征信息庫構建的便易性。
2)本發明運用特征詞將商品標題表示為特征空間中的特定向量,極大提升了商品的可區分性,從而有效解決了由于特征空間構造而導致商品自動分類方法訓練時間長且效果不理想的問題。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
圖1為本發明實施例所述的基于二元切詞和支持向量機的商品自動分類方法的流程示意框圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京尚友通達信息技術有限公司,未經北京尚友通達信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310201322.8/2.html,轉載請聲明來源鉆瓜專利網。





