[發明專利]相似度特征向量的構建方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110037613.2 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112733939A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 黃艷香;吳信東;白強偉 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 孔默 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 特征向量 構建 方法 裝置 電子設備 存儲 介質 | ||
本申請提供了一種相似度特征向量的構建方法、裝置、電子設備及存儲介質,從多個數據匹配標簽中的每個數據匹配標簽中確定出至少一個屬性特征和每個屬性特征對應的屬性值;基于每個數據匹配標簽的各個屬性特征的屬性值,確定任意兩個數據匹配標簽中同類別屬性特征的屬性相似度;根據每個數據匹配標簽中包括的屬性特征和屬性特征的數量,確定兩個數據匹配標簽之間的屬性數占比,最后,基于每兩個數據匹配標簽之間的屬性相似度以及屬性數占比,構建用于輸入至確定多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量。這樣,可以有效地將多個數據匹配標簽轉換為相似度特征向量,可以降低匹配模型的局限性,以及提高實體匹配結果的準確性。
技術領域
本申請涉及信息處理技術領域,尤其是涉及一種相似度特征向量的構建方法、裝置、電子設備及存儲介質。
背景技術
隨著企業的不斷發展,由于管理人員變遷、物理布局分散、系統自治等原因,數據存在來源繁雜(不同類型的關系型數據庫,不同部門的數據等)、結構異構(SQL,NoSQL數據庫,文本文件,Hive大數據等)等問題,要完成不同部門數據資產的統一管理,并不簡單。在企業的數字化轉型過程中,將多源異構的數據進行集成、融合,是企業做好上層應用的必要基礎條件,而在數據融合的過程中實體匹配是這一過程中非常重要的一環。
目前,傳統的機器學習方法、以及詞嵌入(word embedding)方法等構建的特征向量往往與特征數量相關,當從不同數據源獲取到的特征數量不同時,使用針對某一數據源訓練好的匹配模型,則會使得匹配的結果不夠準確,另外,使用同一數據源訓練好的匹配模型,不能夠跨數據源進行實體匹配,局限性較高。
發明內容
有鑒于此,本申請的目的在于提供一種相似度特征向量的構建方法、裝置、電子設備及存儲介質,可以有效地將從不同的數據源獲取到的數據匹配標簽,轉換為相似度特征向量,進而,有助于提高匹配模型的魯棒性以及降低匹配模型的局限性,從而,可以提高實體匹配結果的準確性。
本申請實施例提供了一種相似度特征向量的構建方法,所述構建方法包括:
獲取待匹配的多個數據匹配標簽;
針對于每個數據匹配標簽,從該數據匹配標簽中確定出至少一個屬性特征以及每個屬性特征對應的屬性值;
針對于每兩個數據匹配標簽,基于每個數據匹配標簽中各個屬性特征對應的屬性值,確定所述兩個數據匹配標簽中同類別屬性特征之間的屬性相似度;
基于所述兩個數據匹配標簽中的每個數據匹配標簽中包括的屬性特征以及屬性特征的數量,確定所述兩個數據匹配標簽之間的屬性數占比;
基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的屬性相似度以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量。
進一步的,所述基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的屬性相似度以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量,包括:
針對于每兩個數據匹配標簽,基于所述兩個數據匹配標簽在各個屬性特征下的屬性相似度,確定所述兩個數據匹配標簽之間的統計相似度以及相似度占比;
基于所述多個數據匹配標簽中每兩個數據匹配標簽之間的統計相似度、相似度占比以及屬性數占比,構建用于輸入至確定所述多個數據匹配標簽中實體是否匹配的匹配模型的相似度特征向量。
進一步的,當所述屬性數占比包括共同屬性占比、最小屬性占比以及最大屬性占比時,所述基于所述兩個數據匹配標簽中的每個數據匹配標簽中包括的屬性特征以及屬性特征的數量,確定所述兩個數據匹配標簽之間的屬性數占比,包括:
確定所述兩個數據匹配標簽中均具有的屬性特征的第一數量,以及所述兩個數據匹配標簽中每個數據匹配標簽所包括的屬性特征的第二數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110037613.2/2.html,轉載請聲明來源鉆瓜專利網。





