[發明專利]一種用于實體匹配的詞向量訓練方法與系統有效
| 申請號: | 202011503759.3 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112632971B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 白強偉;黃艷香 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/279;G06F40/295 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 李紅巖 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 實體 匹配 向量 訓練 方法 系統 | ||
本發明公開了一種用于實體匹配的詞向量訓練方法與系統,所述方法包括:將第一實體集合、第二實體集合中的所有相同屬性劃分為數值型、類別型和文本型,并將相同類型的屬性加入到同一集合中,生成數值型屬性集合、類別型屬性集合和文本型屬性集合;將第一實體集合和第二實體集合中相同數值型屬性的值進行合并、去重、排序和采樣,將采樣的結果加入到訓練樣本集合中;將相同類別型屬性的值進行合并、計數和采樣,將采樣的結果加入到訓練樣本集合中;將所有文本屬性的屬性值作為單獨的樣本加入到訓練樣本集合中;將每個實體的所有屬性值拼接起來作為單獨的樣本加入到訓練樣本集合中;通過訓練樣本集合訓練詞向量。
技術領域
本發明涉及數據分析技術領域,尤其涉及一種用于實體匹配的詞向量訓練方法與系統。
背景技術
目前,各種各樣的領域都在產生著大量的數據,例如電商、社交、出行、餐飲等等。這些數據中包含著大量有價值的信息,這些信息可以幫助企業提升運行效率、改善用戶體驗。但是,在大數據時代如何更好的利用這些數據面臨著一個巨大的挑戰,那就是多源數據集成。由于各個企業,甚至是同一企業的各個部門均會按照自己的需求來建立獨立的數據庫,而這些數據庫之間很可能會存在冗余的信息。因此,將多個不同來源、不同形式的數據庫集成在一起,提供統一的數據視圖有著重要的價值。
在數據集成的領域中存在著一個重要的問題,稱為實體匹配(Entity?Matching)或者實體消解(Entity?Resolution)。實體匹配的目標是確定數據庫中的兩個實體是否指向現實世界中的同一實體。例如:給定兩個實體,分別為實體1(姓名:張三,年齡:30,住址:北京市朝陽區,職業:程序員)、實體2(姓名:張三,年齡:31,住址:北京市海淀區,職業:程序員)。那么實體1和實體2是否指的是同一個人呢?這就是實體匹配面臨的問題。
在自然語言處理領域,數字不是十分常見且通常也不會顯著的影響各類自然語言處理任務。但是在實體匹配領域,通常會包含許多的數值列,這些列中的數字有可能極大的影響匹配結果。例如兩個產品的價格如果相差極大,那么不論這些產品的其他信息如何的相近,其很大概率都不是同一款產品。目前的詞向量方法并不能有效的提供數字的向量表示。舉例來說,與數字“1”詞向量最相近的詞向量是數字“11”,而不是數字“2”。顯然,這樣的詞向量很難為實體匹配提供幫助,甚至還會影響實體匹配的結果。
另外,在實體匹配中存在著許多列,其保存的信息只是較短的單詞,例如姓名、產品品牌等,這里將這些詞統稱為類別詞。這些單詞有一個明顯的特征,即其表示的形式和內容與其所在的列具有相當大的相關性。目前的詞向量訓練方法并沒有將這部分的信息考慮進來。
發明內容
本發明針對現有技術的不足,提出一種用于實體匹配的詞向量訓練方法與系統。
第一方面,本申請實施例提供了一種用于實體匹配的詞向量訓練方法,包括:
屬性類型劃分步驟:將第一實體集合、第二實體集合中的所有相同屬性劃分為數值型、類別型和文本型,并將相同類型的屬性加入到同一集合中,生成數值型屬性集合、類別型屬性集合和文本型屬性集合;
數值型樣本生成步驟:將所述第一實體集合和所述第二實體集合中相同數值型屬性的值進行合并、去重、排序和采樣,并將采樣的結果加入到訓練樣本集合中;
類別型樣本生成步驟:將所述第一實體集合和所述第二實體集合中相同類別型屬性的值進行合并、計數和采樣,并將采樣的結果加入到所述訓練樣本集合中;
文本型樣本生成步驟:將所述第一實體集合和所述第二實體集合中所有文本屬性的屬性值作為單獨的樣本加入到所述訓練樣本集合中;
實體樣本生成步驟:將所述第一實體集合和所述第二實體集合中每個實體的所有屬性值拼接起來作為單獨的樣本加入到所述訓練樣本集合中;
詞向量訓練步驟:通過所述訓練樣本集合訓練詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011503759.3/2.html,轉載請聲明來源鉆瓜專利網。





