[發明專利]訓練模型、對企業進行行業分類的方法和裝置在審
| 申請號: | 202210620380.3 | 申請日: | 2022-06-02 |
| 公開(公告)號: | CN115099310A | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 張端陽 | 申請(專利權)人: | 螞蟻區塊鏈科技(上海)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 200010 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 企業 進行 行業 分類 方法 裝置 | ||
1.一種訓練行業數據提取器的方法,所述方法包括:
獲取若干個正樣本對和若干個負樣本對構成的樣本對集合;其中,任一所述正樣本對包括同一企業的不同類型的兩項基礎數據;任一所述負樣本對包括不同企業的兩項基礎數據;
將所述正樣本對和所述負樣本對包括的各項基礎數據分別輸入待訓練的行業數據提取器,得到各項基礎數據分別對應的特征向量;
根據各項基礎數據分別對應的特征向量,計算正樣本對的相似度和負樣本對的相似度;
通過最小化總表征損失,訓練所述行業數據提取器;所述總表征損失基于所述樣本對集合中各個樣本對的相似度計算得到。
2.如權利要求1所述的方法,其中,所述獲取若干個正樣本對和若干個負樣本對構成的樣本對集合,包括:
獲取預設數目個企業的基礎數據;
將所述預設數目個企業中的任一企業作為第一企業,其他企業作為第二企業,根據所述第一企業的不同類型的兩項基礎數據構造所述正樣本對,根據所述第一企業的一項基礎數據和所述第二企業的一項基礎數據構造所述負樣本對。
3.如權利要求1所述的方法,其中,所述基礎數據的類型包括:
企業名稱、經營范圍數據、招聘數據、專利數據。
4.如權利要求1所述的方法,其中,所述根據各項基礎數據分別對應的特征向量,計算正樣本對的相似度和負樣本對的相似度,包括:
根據各項基礎數據分別對應的特征向量,以余弦相似度作為相似度函數,計算正樣本對的相似度和負樣本對的相似度。
5.如權利要求1所述的方法,其中,所述總表征損失與所述樣本對集合中各個樣本對的相似度之和負相關,與所述樣本對集合中各個正樣本對的相似度之和正相關。
6.一種訓練行業分類模型的方法,所述方法包括:
獲取訓練樣本集合,所述訓練樣本集合中的任一訓練樣本包括樣本企業的多項不同類型的基礎數據和行業類別標簽;
將任一訓練樣本包括的所述多項不同類型的基礎數據逐項輸入權利要求1所述的方法訓練后的行業數據提取器,得到多個特征向量;
將所述多個特征向量輸入待訓練的行業分類模型,得到相應樣本企業對應的預測類別;
根據所述行業類別標簽和所述預測類別,計算該訓練樣本的預測損失;
通過最小化總預測損失,訓練所述行業分類模型;所述總預測損失基于所述訓練樣本集合中各個訓練樣本的預測損失計算得到。
7.一種對企業進行行業分類的方法,所述方法包括:
獲取目標企業的多項不同類型的基礎數據;
將所述多項不同類型的基礎數據逐項輸入權利要求1所述的方法訓練后的行業數據提取器,得到多個特征向量;
將所述多個特征向量輸入權利要求6所述的方法訓練后的行業分類模型,得到所述目標企業對應的預測行業類別。
8.如權利要求7所述的方法,其中,所述方法還包括:
在針對所述目標企業進行的企業征信服務中,采集所述預測行業類別的行業發展數據,以對所述目標企業的信用狀況進行評估。
9.一種訓練行業數據提取器的裝置,所述裝置包括:
獲取單元,用于獲取若干個正樣本對和若干個負樣本對構成的樣本對集合;其中,任一所述正樣本對包括同一企業的不同類型的兩項基礎數據;任一所述負樣本對包括不同企業的兩項基礎數據;
特征提取單元,用于將所述獲取單元獲取的所述正樣本對和所述負樣本對包括的各項基礎數據分別輸入待訓練的行業數據提取器,得到各項基礎數據分別對應的特征向量;
相似度計算單元,用于根據所述特征提取單元得到的各項基礎數據分別對應的特征向量,計算正樣本對的相似度和負樣本對的相似度;
訓練單元,用于通過最小化總表征損失,訓練所述行業數據提取器;所述總表征損失基于所述相似度計算單元得到的樣本對集合中各個樣本對的相似度計算得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于螞蟻區塊鏈科技(上海)有限公司,未經螞蟻區塊鏈科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210620380.3/1.html,轉載請聲明來源鉆瓜專利網。





