[發明專利]一種對象分類以及分類模型構建方法和裝置在審
| 申請號: | 202011064067.3 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112148841A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 劉陽;周晗;黃文瀚;柳超 | 申請(專利權)人: | 北京金堤征信服務有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/284;G06F40/289 |
| 代理公司: | 北京康盛知識產權代理有限公司 11331 | 代理人: | 董娣 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 對象 分類 以及 模型 構建 方法 裝置 | ||
本發明公開了一種對象分類以及分類模型構建方法和裝置,涉及計算機技術領域。該對象分類方法的一具體實施方式包括:獲取待分類對象的初始特征數據,所述初始特征數據中包括所述待分類對象的標識信息數據和屬性信息數據;對所述標識信息數據和屬性信息數據進行分詞處理,得到特征詞集合,所述特征詞集合中包括至少一個特征詞;將所述特征詞集合中的特征詞進行向量表示,以及基于訓練的分類模型,確定所述待分類對象所屬的目標類別。該對象分類的方法能夠根據初始特征數據的特征詞集合,以及特征詞的向量表示,將詞向量輸入訓練的分類模型,則可自動、快速、準確確定出待分類對象所屬的目標類別。
技術領域
本發明涉及計算機技術領域,尤其涉及一種對象分類以及分類模型構建方法和裝置。
背景技術
在現實應用中,有很多需要進行信息分類的場景,例如企業會根據自身的經營范圍可被劃分為某種行業中。在現有技術中,一般是通過人工進行分類。而且由于企業特別是小微企業中的經營范圍過于寬泛和冗余業務,會出現分類不明確甚至分類錯誤等情況出現,通過人工進行行業分類具有時間成本昂貴和效率低下等問題。
發明內容
有鑒于此,本發明實施例提供一種對象分類以及分類模型構建方法和裝置,能夠根據初始特征數據的特征詞集合,以及特征詞的向量表示,將詞向量輸入訓練的分類模型,則可自動、快速、準確確定出待分類對象所屬的目標類別。
為實現上述目的,根據本發明實施例的一個方面,提供了一種對象分類的方法。
本發明實施例的對象分類的方法包括:獲取待分類對象的初始特征數據,所述初始特征數據中包括所述待分類對象的標識信息數據和屬性信息數據;對所述標識信息數據和屬性信息數據進行分詞處理,得到特征詞集合,所述特征詞集合中包括至少一個特征詞;將所述特征詞集合中的特征詞進行向量表示,以及基于訓練的分類模型,確定所述待分類對象所屬的目標類別。
可選地,對所述標識信息數據和屬性信息數據進行分詞處理,得到特征詞集合的步驟,包括:對所述初始特征數據中的標識信息數據和屬性信息數據進行分詞處理,得到多個待清洗特征詞;對所述多個待清洗特征詞進行清洗處理,得到清洗后的特征詞,所述清洗后的特征詞組成特征詞集合。
可選地,對所述多個待清洗特征詞進行清洗處理,得到清洗后的特征詞的步驟,包括:去除所述多個待清洗特征詞中的無用詞,得到第一處理后的特征詞;其中,所述無用詞至少包括以下一種:介詞,副詞,重復詞,預指定詞;和/或,根據所述多個待清洗特征詞的歷史詞頻,去除所述多個待清洗特征詞中的特征信息含量低于閾值的詞,得到第二處理后的特征詞;所述清洗后的特征詞包括所述第一處理后的特征詞和/或第二處理后的特征詞。
可選地,對所述初始特征數據中的標識信息數據和屬性信息數據進行分詞處理,得到多個待清洗特征詞的步驟,包括:對所述初始特征數據中的標識信息數據和屬性信息數據進行分詞處理,得到多個初始特征詞,以及每個初始特征詞在其對應的標識信息數據或屬性信息數據中的詞序;根據所述詞序對所述多個初始特征詞進行組合,得到組合特征詞;所述多個初始特征詞和組合特征詞組成所述多個待清洗特征詞。
可選地,獲取待分類對象的初始特征數據,所述初始特征數據中包括所述待分類對象的標識信息數據和屬性信息數據的步驟包括:獲取待分類對象的初始特征數據,其中,所述待分類對象為待分類企業,所述初始特征數據中包括指示所述待分類企業所屬行業的信息數據;其中,指示所述待分類企業所屬行業的信息數據例如可以是公司名稱中表征行業的詞語,如科技有限公司、智能信息等,或者是經營范圍中的技術開發、銷售等,即可進一步根據公司名稱和經營范圍確定該公司屬于哪個行業的數據。
為實現上述目的,根據本發明實施例的另一個方面,提供了一種分類模型構建方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金堤征信服務有限公司,未經北京金堤征信服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011064067.3/2.html,轉載請聲明來源鉆瓜專利網。





