[發明專利]一種數據實體識別方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202210430975.2 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114780528A | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 樊文飛;陸平;朱筱可 | 申請(專利權)人: | 深圳計算科學研究院 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28;G06F16/2453;G06F16/242;G06F16/22 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 丁宇龍 |
| 地址: | 518000 廣東省深圳市龍華區民治*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 實體 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種數據實體識別方法,其特征在于,包括:
通過數據的關系模式和屬性構建數據集;
對所述數據集中的謂詞進行合取,并根據合取的謂詞和數據的關系模式建立匹配規則;
基于所述匹配規則,采用MQO技術生成查詢計劃;
利用所述查詢計劃對實體數據集合進行匹配計算。
2.根據權利要求1所述的數據實體識別方法,其特征在于,所述通過數據的關系模式和屬性構建數據集,包括:
按照下式獲取數據的關系模式:
R=(R1,…Ri,…Rm)
式中,Ri表示關系模式(A1:τ1,…Ai:τi,…An:τn),Ai表示屬性類型τi;
將所述數據集D表示為D=(D1,…Di,…Dm),其中Di表示一種關系模式Ri下的一個關系。
3.根據權利要求2所述的數據實體識別方法,其特征在于,還包括:
按照下式對所述數據集中的謂詞p進行設置:
式中,R(t)表示R的一個關系原子,即t是關系模式R下的一個元組變量;當t被R(t)綁定,A是關系模式R中的一個屬性時,t.A表示元組變量t的屬性A;在t.A=c中,c表示屬性A的取值域中的一個常量;在t.A=s.B中,A∈R和B∈R'擁有同樣的類型;M表示用于實體消解的ML分類器,和是兩個等長的屬性向量;表示用于實體消解的ML分類器;
將所述匹配規則φ中的變量賦值函數h,并將匹配規則φ中的每個關系原子R(t)綁定的元組變量t實例化映射成數據集D中的元組;
若p為R(t),t.a=c或t.a=s.B時,則按照一階邏輯的標準語義進行關系演算的結果為真;
若p為則當ML分類器M在時預測結果為“匹配”;
若謂詞合取X中的所有謂詞p均滿足時,則將函數設置為
4.根據權利要求1所述的數據實體識別方法,其特征在于,所述對所述數據集中的謂詞進行合取,并根據合取的謂詞和數據的關系模式建立匹配規則,包括:
按照下式建立匹配規則φ:
X→l
式中,X是R上謂詞的合取,l是形式為t.id=s.id或的謂詞,其中,t和s在X中與關系模式進行了綁定;
分別將X和l設置為所述匹配規則φ的前提條件和結果。
5.根據權利要求1所述的數據實體識別方法,其特征在于,所述基于所述匹配規則,采用MQO技術生成查詢計劃,包括:
獲取所述數據集的查詢語句;
采用MQO技術將所述查詢語句分解為多個子查詢;
在多個子查詢中查找搜索公共子查詢,以生成有向無環圖的查詢計劃。
6.根據權利要求3所述的數據實體識別方法,其特征在于,還包括:
按照共享關系原子數量對匹配規則設置第一順序Or;
按照共享哈希函數的匹配規則的數量對數據集的謂詞上設置第二順序Op,并根據所述第二順序為不同變量分配哈希函數;
在哈希函數上設置第三順序Oh,按照所述第三順序對不同變量進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳計算科學研究院,未經深圳計算科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210430975.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





