[發明專利]相似度特征向量的構建方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110037613.2 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112733939A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 黃艷香;吳信東;白強偉 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 孔默 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 特征向量 構建 方法 裝置 電子設備 存儲 介質 | ||
1.一種相似度特征向量的構建方法,其特征在于,所述構建方法包括:
獲取待匹配的多個數據匹配標簽;
針對于每個數據匹配標簽,從該數據匹配標簽中確定出至少一個屬性特征以及每個屬性特征對應的屬性值;
針對于每兩個數據匹配標簽,基于每個數據匹配標簽中各個屬性特征對應的屬性值,確定所述兩個數據匹配標簽中同類別屬性特征之間的屬性相似度;
基于所述兩個數據匹配標簽中的每個數據匹配標簽中包括的屬性特征以及屬性特征的數量,確定所述兩個數據匹配標簽之間的屬性數占比;
基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的屬性相似度以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量。
2.根據權利要求1所述的構建方法,其特征在于,所述基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的屬性相似度以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量,包括:
針對于每兩個數據匹配標簽,基于所述兩個數據匹配標簽在各個屬性特征下的屬性相似度,確定所述兩個數據匹配標簽之間的統計相似度以及相似度占比;
基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的統計相似度、相似度占比以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量。
3.根據權利要求2所述的構建方法,其特征在于,當所述屬性數占比包括共同屬性占比、最小屬性占比以及最大屬性占比時,所述基于所述兩個數據匹配標簽中的每個數據匹配標簽中包括的屬性特征以及屬性特征的數量,確定所述兩個數據匹配標簽之間的屬性數占比,包括:
確定所述兩個數據匹配標簽中均具有的屬性特征的第一數量,以及所述兩個數據匹配標簽中每個數據匹配標簽所包括的屬性特征的第二數量;
基于所述第一數量以及每個數據匹配標簽的第二數量,確定所述兩個數據匹配標簽之間的共同屬性占比、最小屬性占比以及最大屬性占比。
4.根據權利要求3所述的構建方法,其特征在于,通過以下步驟確定所述兩個數據匹配標簽之間的相似度占比:
基于所述兩個數據匹配標簽之間的屬性相似度,確定位于預設的每個相似度區間內的屬性相似度的第三數量;
針對于每個相似度區間,基于所述第一數量以及所述第三數量,確定所述兩個數據匹配標簽在該相似度區間內對應的相似度占比。
5.根據權利要求2所述的構建方法,其特征在于,所述統計相似度包括最大屬性相似度、最小屬性相似度、平均屬性相似度以及中位數屬性相似度。
6.一種相似度特征向量的構建裝置,其特征在于,所述構建裝置包括:
標簽獲取模塊,用于獲取待匹配的多個數據匹配標簽;
第一確定模塊,用于針對于每個數據匹配標簽,從該數據匹配標簽中確定出至少一個屬性特征以及每個屬性特征對應的屬性值;
第二確定模塊,用于針對于每兩個數據匹配標簽,基于每個數據匹配標簽中各個屬性特征對應的屬性值,確定所述兩個數據匹配標簽中同類別屬性特征之間的屬性相似度;
第三確定模塊,用于基于所述兩個數據匹配標簽中的每個數據匹配標簽中包括的屬性特征以及屬性特征的數量,確定所述兩個數據匹配標簽之間的屬性數占比;
向量構建模塊,用于基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的屬性相似度以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110037613.2/1.html,轉載請聲明來源鉆瓜專利網。





