[發(fā)明專利]訓練模型、對企業(yè)進行行業(yè)分類的方法和裝置在審
| 申請?zhí)枺?/td> | 202210620380.3 | 申請日: | 2022-06-02 |
| 公開(公告)號: | CN115099310A | 公開(公告)日: | 2022-09-23 |
| 發(fā)明(設計)人: | 張端陽 | 申請(專利權)人: | 螞蟻區(qū)塊鏈科技(上海)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京億騰知識產(chǎn)權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 200010 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 企業(yè) 進行 行業(yè) 分類 方法 裝置 | ||
本說明書實施例提供一種訓練模型、對企業(yè)進行行業(yè)分類的方法和裝置,訓練行業(yè)數(shù)據(jù)提取器的方法包括:獲取若干個正樣本對和若干個負樣本對構成的樣本對集合;任一正樣本對包括同一企業(yè)的不同類型的兩項基礎數(shù)據(jù);任一負樣本對包括不同企業(yè)的兩項基礎數(shù)據(jù);將正樣本對和負樣本對包括的各項基礎數(shù)據(jù)分別輸入待訓練的行業(yè)數(shù)據(jù)提取器,得到各項基礎數(shù)據(jù)分別對應的特征向量;根據(jù)各項基礎數(shù)據(jù)分別對應的特征向量,計算正樣本對的相似度和負樣本對的相似度;通過最小化總表征損失,訓練行業(yè)數(shù)據(jù)提取器;總表征損失基于樣本對集合中各個樣本對的相似度計算得到。依賴于該行業(yè)數(shù)據(jù)提取器對基礎數(shù)據(jù)的特征表示,能夠高效、準確地確定企業(yè)的行業(yè)類別。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及訓練行業(yè)數(shù)據(jù)提取器、訓練行業(yè)分類模型及對企業(yè)進行行業(yè)分類的方法和裝置。
背景技術
基于業(yè)務需求,常常需要對企業(yè)所歸屬的行業(yè)進行精準的分類。行業(yè)指的是從事相同性質(zhì)的經(jīng)濟活動的所有單位的集合。企業(yè)工商登記信息中的行業(yè)分類是公司在工商稅務總局登記之初設定的,人為誤差比較大,且與企業(yè)真實的行業(yè)分類存在較大差異,所以需要再對企業(yè)的行業(yè)進行準確的分類。
現(xiàn)有技術中,主要使用的仍然是傳統(tǒng)的方法,采用人工統(tǒng)計分析對企業(yè)的行業(yè)進行分類,需要消耗大量的人力物力,工作量繁重,工作效率低。另外,現(xiàn)有技術中對企業(yè)的行業(yè)進行分類時,分類結果準確性較低。
發(fā)明內(nèi)容
本說明書一個或多個實施例描述了一種訓練行業(yè)數(shù)據(jù)提取器、訓練行業(yè)分類模型及對企業(yè)進行行業(yè)分類的方法和裝置,能夠高效、準確地確定企業(yè)的行業(yè)類別。
第一方面,提供了一種訓練行業(yè)數(shù)據(jù)提取器的方法,方法包括:
獲取若干個正樣本對和若干個負樣本對構成的樣本對集合;其中,任一所述正樣本對包括同一企業(yè)的不同類型的兩項基礎數(shù)據(jù);任一所述負樣本對包括不同企業(yè)的兩項基礎數(shù)據(jù);
將所述正樣本對和所述負樣本對包括的各項基礎數(shù)據(jù)分別輸入待訓練的行業(yè)數(shù)據(jù)提取器,得到各項基礎數(shù)據(jù)分別對應的特征向量;
根據(jù)各項基礎數(shù)據(jù)分別對應的特征向量,計算正樣本對的相似度和負樣本對的相似度;
通過最小化總表征損失,訓練所述行業(yè)數(shù)據(jù)提取器;所述總表征損失基于所述樣本對集合中各個樣本對的相似度計算得到。
在一種可能的實施方式中,所述獲取若干個正樣本對和若干個負樣本對構成的樣本對集合,包括:
獲取預設數(shù)目個企業(yè)的基礎數(shù)據(jù);
將所述預設數(shù)目個企業(yè)中的任一企業(yè)作為第一企業(yè),其他企業(yè)作為第二企業(yè),根據(jù)所述第一企業(yè)的不同類型的兩項基礎數(shù)據(jù)構造所述正樣本對,根據(jù)所述第一企業(yè)的一項基礎數(shù)據(jù)和所述第二企業(yè)的一項基礎數(shù)據(jù)構造所述負樣本對。
在一種可能的實施方式中,所述基礎數(shù)據(jù)的類型包括:
企業(yè)名稱、經(jīng)營范圍數(shù)據(jù)、招聘數(shù)據(jù)、專利數(shù)據(jù)。
在一種可能的實施方式中,所述根據(jù)各項基礎數(shù)據(jù)分別對應的特征向量,計算正樣本對的相似度和負樣本對的相似度,包括:
根據(jù)各項基礎數(shù)據(jù)分別對應的特征向量,以余弦相似度作為相似度函數(shù),計算正樣本對的相似度和負樣本對的相似度。
在一種可能的實施方式中,所述總表征損失與所述樣本對集合中各個樣本對的相似度之和負相關,與所述樣本對集合中各個正樣本對的相似度之和正相關。
第二方面,提供了一種訓練行業(yè)分類模型的方法,方法包括:
獲取訓練樣本集合,所述訓練樣本集合中的任一訓練樣本包括樣本企業(yè)的多項不同類型的基礎數(shù)據(jù)和行業(yè)類別標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于螞蟻區(qū)塊鏈科技(上海)有限公司,未經(jīng)螞蟻區(qū)塊鏈科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210620380.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





