[發明專利]一種基于貝葉斯模型的多真值沖突消解方法有效
| 申請號: | 202010414102.3 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111708816B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 魏筆凡;鄧婷;劉均;鄭慶華;卜德蕊;郝子琛;郭敏 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06K9/62 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 姚詠華 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 貝葉斯 模型 真值 沖突 消解 方法 | ||
1.一種基于貝葉斯模型的多真值沖突消解方法,其特征在于,包括以下步驟:
步驟100,從網上獲取WEB數據集,并對WEB數據集清洗與處理,得到由三元組數據源、對象、對象屬性的值組成的初始數據集Draw;
步驟200,在分析步驟100得到WEB數據集的初始數據集Draw的數據后,對單真值和多真值沖突消解中數據源質量的評估標準分析,確定針對多真值沖突問題中數據源質量的評估標準;
步驟300,基于步驟200中所得數據源質量的評估標準,生成步驟100所得初始數據集Draw中數據源先驗可信度,即所述數據源可信度召回率和特異性的集合;
步驟301,將步驟100所得初始數據集Draw轉換成一個事實數據集Df,然后生成一個聲明數據集Dc,以確定數據源是否提供事實數據集Df中的事實,根據聲明數據集Dc中各數據源提供的數據總數進行初始化數據源混淆矩陣;
步驟302,基于步驟301得到的數據源混淆矩陣,采用基于吉布斯采樣的方法進行數據源先驗可信度評估,得到初始數據集Draw中的數據源先驗可信度召回率和特異性的集合;
步驟400,基于步驟300得到數據源先驗可信度,利用貝葉斯模型推斷真值,最后輸出消解了沖突值的真值數據集Dt,具體如下:
步驟401,采用基于三維空間距離的方法對數據源和對象之間的相似性建模,得到數據源和對象的距離dist(S,O);
步驟402,在多真值推斷中,生成多真值的置信度得分gs(v);
步驟403,基于步驟401生成的數據源與對象之間的相似性和步驟402所得多真值的置信度得分,將這兩個因素集成到貝葉斯模型推斷中進行多真值的推斷,生成消解了沖突值的真值數據集Dt。
2.根據權利要求1所述的基于貝葉斯模型的多真值沖突消解方法,其特征在于,步驟100中,基于數據集中的數據,按照不同數據源為同一對象的屬性提供的不同值進行整體分析,得到每一個對象的屬性值的集合。
3.根據權利要求2所述的基于貝葉斯模型的多真值沖突消解方法,其特征在于,步驟100對數據集進行預處理具體包括以下步驟:
步驟101,通過對數據集進行分析,有的屬性值的信息不沖突,因本文研究的是信息沖突的情況,刪除所有不沖突的數據,生成一個數據集,只保留數據源提供的沖突值集;
步驟102,針對Movie數據集,爬取“Country”屬性作為其擴展屬性,對于對象所有的屬性,進行一致性的處理;
步驟103,刪除只有一個數據源提供的信息,對數據集中作者屬性的名字進行過濾數字和亂碼,得到最后的初始數據集Draw并存儲在本地數據庫中。
4.根據權利要求1所述的基于貝葉斯模型的多真值沖突消解方法,其特征在于,步驟300中,采用基于吉布斯采樣的方法進行數據源先驗可靠性評估,生成數據源質量指標召回率和特異性,具體包括以下步驟:
步驟301,數據源質量用兩種不同的獨立指標來衡量:召回率和特異性,為每個數據源創建兩個獨立的質量指標,將關于數據源先驗的信念或假設與數據源結合起來初始化其混淆矩陣;
步驟302,基于步驟301得到的數據源混淆矩陣,聲明數據集Dc中的數據由三個部分組成:事實、數據源以及觀察的布爾值,聲明數據集Dc中觀察的布爾值取決于事實和提供觀察的布爾值的數據源,聲明數據集Dc中觀察的布爾值設為隨機變量;將數據源的召回率和特異性的平均值對數據源進行先驗權威性排名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010414102.3/1.html,轉載請聲明來源鉆瓜專利網。





