[發明專利]一種分類方法及裝置在審
| 申請號: | 201610056878.6 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740389A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 湯奇峰;石子凡 | 申請(專利權)人: | 上海晶贊科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 吳敏 |
| 地址: | 200072 上海市閘北區靈*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分類 方法 裝置 | ||
技術領域
本發明涉及數據處理領域,尤其涉及一種分類方法及裝置。
背景技術
隨著網絡技術的發展,可以通過網絡獲取越來越多的數據,并依托這些數據進行進一步的分析,這也是大數據時代的特點之一。為了對海量數據進行進一步的處理和分析,對數據進行分類往往是必不可少的步驟。
但是,現有技術中的分類方法準確性有待提高。
發明內容
本發明解決的技術問題是提升分類方法的準確性。
為解決上述技術問題,本發明實施例提供一種分類方法,包括:
確定層級分類庫,所述層級分類庫包含多個不同的支線,每一支線包含一個或多個不同層級的類目;
從目標網站獲取所述支線的最下層級類目包含的對象信息;
根據所述對象信息和所述對象信息所屬的支線訓練分類模型。
可選的,所述對象信息包括對象標題信息和對象屬性信息。
可選的,所述訓練分類模型包括:
對所述對象信息進行處理,以生成基礎詞庫;
根據所述基礎詞庫和所述多個不同的支線訓練所述分類模型,以使所述分類模型能夠對基礎詞庫中詞語的所屬類目的概率進行分值估算。
可選的,所述基礎詞庫通過如下步驟得到:
對所述對象信息進行分詞處理,以得到對象信息詞語;
在類似詞庫中檢索所述對象信息詞語,選取與所述對象信息詞語的相似度大于相似度閾值的詞語作為擴展信息;
對所述對象信息詞語和所述擴展信息進行去重處理,以得到所述基礎詞庫。
可選的,所述分類方法還包括:
根據所述基礎詞庫對待分類對象信息進行分詞處理,以得到待分類對象信息詞語;
利用所述分類模型對所述待分類對象信息詞語進行分值估算;
參照所述待分類對象信息詞語的分值估算結果,確定所述待分類對象信息所屬的分類。
可選的,所述分類方法還包括:
根據所述基礎詞庫對待分類對象信息進行分詞處理,以得到待分類對象信息詞語;
參照類似詞庫生成所述待分類對象信息詞語的擴展信息;
利用所述分類模型對所述待分類對象信息詞語和所述擴展信息進行分值估算;
參照所述待分類對象信息詞語和所述擴展信息的分值估算的結果,確定所述待分類對象信息所屬的分類。
本發明實施例還提供一種分類裝置,包括:層級分類庫確定單元、對象信息獲取單元以及模型訓練單元;其中:
所述層級分類庫確定單元,適于確定層級分類庫,所述層級分類庫包含多個不同的支線,每一支線包含多個不同層級的類目;
所述對象信息獲取單元,適于從目標網站獲取所述支線的最下層級類目包含的對象信息;
所述模型訓練單元,適于所述對象信息和所述對象信息所屬的支線訓練分類模型。
可選的,所述對象信息包括對象標題信息和對象屬性信息。
可選的,所述模型訓練單元包括:基礎詞庫生成子單元以及訓練子單元;其中:
所述基礎詞庫生成子單元,適于對所述對象信息進行分詞處理,以得到基礎詞庫;
所述訓練子單元,適于根據所述基礎詞庫和所述多個不同的支線訓練所述分類模型,以使所述分類模型能夠對基礎詞庫中詞語的所屬類目的概率進行分值估算。
可選的,所述基礎詞庫生成子單元包括:第二分詞處理單元、第一擴展信息生成單元和第二去重處理單元,其中:
所述第二分詞處理單元,適于對所述對象信息進行分詞處理,以得到對象信息詞語;
所述第一擴展信息生成單元,適于在類似詞庫中檢索所述對象信息詞語,選取與所述對象信息詞語的相似度大于相似度閾值的詞語作為擴展信息;
所述第二去重處理單元,適于對所述對象信息詞語和所述擴展信息進行去重處理,以得到所述基礎詞庫。
可選的,所述分類裝置還包括:第三分詞處理單元、第一分值估算單元以及第一分類確定單元;其中:
第三分詞處理單元,適于根據所述基礎詞庫對所述待分類對象信息進行分詞處理,以得到待分類對象信息詞語;
第一分值估算單元,適于利用所述分類模型對所述待分類對象信息詞語進行分值估算;
第一分類確定單元,適于參照所述待分類對象信息詞語的分值估算結果,確定所述待分類對象信息所屬的分類。
可選的,所述分類裝置還包括:第四分詞處理單元、第二擴展信息生成單元、第二分值估算單元以及第二分類確定單元;其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晶贊科技發展有限公司,未經上海晶贊科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610056878.6/2.html,轉載請聲明來源鉆瓜專利網。





