[發(fā)明專利]一種用于實(shí)體匹配的詞向量訓(xùn)練方法與系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011503759.3 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112632971B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 白強(qiáng)偉;黃艷香 | 申請(專利權(quán))人: | 上海明略人工智能(集團(tuán))有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/279;G06F40/295 |
| 代理公司: | 青島清泰聯(lián)信知識產(chǎn)權(quán)代理有限公司 37256 | 代理人: | 李紅巖 |
| 地址: | 200030 上海市徐匯區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 實(shí)體 匹配 向量 訓(xùn)練 方法 系統(tǒng) | ||
1.一種用于實(shí)體匹配的詞向量訓(xùn)練方法,其特征在于,包括:
屬性類型劃分步驟:將第一實(shí)體集合、第二實(shí)體集合中的所有相同屬性劃分為數(shù)值型、類別型和文本型,并將相同類型的屬性加入到同一集合中,生成數(shù)值型屬性集合、類別型屬性集合和文本型屬性集合;
數(shù)值型樣本生成步驟:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同數(shù)值型屬性的值進(jìn)行合并、去重、排序和采樣,并將采樣的結(jié)果加入到訓(xùn)練樣本集合中;
類別型樣本生成步驟:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同類別型屬性的值進(jìn)行合并、計(jì)數(shù)和采樣,并將采樣的結(jié)果加入到所述訓(xùn)練樣本集合中;
文本型樣本生成步驟:將所述第一實(shí)體集合和所述第二實(shí)體集合中所有文本屬性的屬性值作為單獨(dú)的樣本加入到所述訓(xùn)練樣本集合中;
實(shí)體樣本生成步驟:將所述第一實(shí)體集合和所述第二實(shí)體集合中每個實(shí)體的所有屬性值拼接起來作為單獨(dú)的樣本加入到所述訓(xùn)練樣本集合中;
詞向量訓(xùn)練步驟:通過所述訓(xùn)練樣本集合訓(xùn)練詞向量。
2.根據(jù)權(quán)利要求1所述的用于實(shí)體匹配的詞向量訓(xùn)練方法,其特征在于,所述數(shù)值型樣本生成步驟包括:
數(shù)值型屬性合并步驟:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同數(shù)值型屬性的值進(jìn)行合并;
序列生成步驟:對合并后的所述數(shù)值型屬性的值進(jìn)行去重和排序,得到若干個有序的序列;
序列采樣步驟:對所有的所述序列分別進(jìn)行一種基于滑動窗口的采樣;
序列添加步驟:將對所有的所述序列進(jìn)行采樣的結(jié)果加入到所述訓(xùn)練樣本集合中。
3.根據(jù)權(quán)利要求2所述的用于實(shí)體匹配的詞向量訓(xùn)練方法,其特征在于,所述序列采樣步驟中還包括:所述滑動窗口從所述序列的前端開始移動,直至移動到整個所述序列的末尾結(jié)束。
4.根據(jù)權(quán)利要求1所述的用于實(shí)體匹配的詞向量訓(xùn)練方法,其特征在于,所述類別型樣本生成步驟包括:
類別型屬性合并步驟:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同類別型屬性的值進(jìn)行合并;
計(jì)數(shù)步驟:對合并后的所述類別型屬性的值進(jìn)行計(jì)數(shù),統(tǒng)計(jì)各個類別出現(xiàn)的次數(shù);
類別采樣步驟:將類別出現(xiàn)的次數(shù)作為權(quán)重進(jìn)行不放回采樣,獲得若干個類別組成的集合;
文本添加步驟:將所述集合轉(zhuǎn)換為文本并加入所述訓(xùn)練樣本集合中。
5.根據(jù)權(quán)利要求4所述的用于實(shí)體匹配的詞向量訓(xùn)練方法,其特征在于,所述類別型樣本生成步驟還包括:若樣本數(shù)沒有達(dá)到用戶指定值,則返回所述類別采樣步驟,直至樣本數(shù)達(dá)到用戶指定值。
6.一種用于實(shí)體匹配的詞向量訓(xùn)練系統(tǒng),其特征在于,包括:
屬性類型劃分模塊:將第一實(shí)體集合、第二實(shí)體集合中的所有相同屬性劃分為數(shù)值型、類別型和文本型,并將相同類型的屬性加入到同一集合中,生成數(shù)值型屬性集合、類別型屬性集合和文本型屬性集合;
數(shù)值型樣本生成模塊:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同數(shù)值型屬性的值進(jìn)行合并、去重、排序和采樣,并將采樣的結(jié)果加入到訓(xùn)練樣本集合中;
類別型樣本生成模塊:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同類別型屬性的值進(jìn)行合并、計(jì)數(shù)和采樣,并將采樣的結(jié)果加入到所述訓(xùn)練樣本集合中;
文本型樣本生成模塊:將所述第一實(shí)體集合和所述第二實(shí)體集合中所有文本屬性的屬性值作為單獨(dú)的樣本加入到所述訓(xùn)練樣本集合中;
實(shí)體樣本生成模塊:將所述第一實(shí)體集合和所述第二實(shí)體集合中每個實(shí)體的所有屬性值拼接起來作為單獨(dú)的樣本加入到所述訓(xùn)練樣本集合中;
詞向量訓(xùn)練模塊:通過所述訓(xùn)練樣本集合訓(xùn)練詞向量。
7.根據(jù)權(quán)利要求6所述的用于實(shí)體匹配的詞向量訓(xùn)練系統(tǒng),其特征在于,所述數(shù)值型樣本生成模塊包括:
數(shù)值型屬性合并單元:將所述第一實(shí)體集合和所述第二實(shí)體集合中相同數(shù)值型屬性的值進(jìn)行合并;
序列生成單元:對合并后的所述數(shù)值型屬性的值進(jìn)行去重和排序,得到若干個有序的序列;
序列采樣單元:對所有的所述序列分別進(jìn)行一種基于滑動窗口的采樣;
序列添加單元:將對所有的所述序列進(jìn)行采樣的結(jié)果加入到所述訓(xùn)練樣本集合中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海明略人工智能(集團(tuán))有限公司,未經(jīng)上海明略人工智能(集團(tuán))有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011503759.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種實(shí)體關(guān)系識別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于實(shí)體對齊的屬性融合方法、裝置、設(shè)備及存儲介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲介質(zhì)
- 移動向量解碼方法和移動向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





