[發(fā)明專利]一種針對家譜人物屬性名稱的融合方法有效

申請?zhí)枺?/td>	201810990234.3	申請日：	2018-08-28
公開（公告）號：	CN109284393B	公開（公告）日：	2020-11-06
發(fā)明（設計）人：	吳信東;蔣婷婷;卜晨陽;李磊;劉嘯劍	申請（專利權）人：	合肥工業(yè)大學
主分類號：	G06F16/36	分類號：	G06F16/36;G06F16/35
代理公司：	安徽省合肥新安專利代理有限責任公司 34101	代理人：	陸麗莉;何梅生
地址：	230009 安***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種針對家譜人物屬性名稱融合方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種針對家譜人物屬性名稱的融合方法，包括：1構建關于家譜人物屬性名稱的語料庫。2過濾包含非中文字符的屬性名稱。3對屬性名稱做規(guī)則處理；相似度距離判斷、字符內容判斷、包含關系判斷，對屬性名稱進行融合。4將融合得到的所有屬性名稱更新進關于家譜人物屬性名稱的語料庫。5對屬性名稱做模式分類處理；分別定義前綴模式及后綴模式，并根據模式進行分類，達到融合的目的。本發(fā)明能夠幫助用戶對概念表示相同的家譜人物屬性名稱進行融合，從而提高數據的存儲效率。

技術領域

本發(fā)明屬于數據處理領域，具體的說是一種針對家譜人物屬性名稱的融合方法。

背景技術

知識圖譜這一概念自被提出以來就受到眾多學者的關注，知識圖譜的發(fā)展推動了數據的互聯開放。屬性名稱融合是知識圖譜構建過程中的一個重要階段，其目的是發(fā)現屬性名稱之間的對應關系，并對可融合的一組屬性名稱采用規(guī)范的名稱表示。有效的屬性名稱融合方法有助于建設高質量知識圖譜。已有的屬性名稱融合方法依賴于外部語料庫計算屬性名稱之間的相似度，或依賴結構信息、上下文信息將其表示為向量計算相似度距離；而可用于中文屬性名稱融合的語料庫較少，內容通常具有局限性；并且中文知識庫中關于屬性的結構、上下文信息較難獲取。

特別地，目前關于家譜人物知識圖譜中的屬性名稱的融合工作較少。采用上述方法難以取得較高的準確率，并且無法發(fā)現屬性名稱之間滿足的模式，降低了數據的存儲效率。

發(fā)明內容

本發(fā)明是為了解決上述現有技術存在的不足之處，提出一種應用于家譜系統(tǒng)的建設過程中，在獲取若干個多源異構的家譜人物屬性名稱列表后的針對家譜人物屬性名稱的融合方法，以期能根據屬性名稱的特點設計規(guī)則，定義模式提高屬性名稱融合的質量，從而能提供一套簡潔規(guī)范的屬性名稱，提高系統(tǒng)的數據質量及建設效率。

本發(fā)明為解決技術問題采用如下技術方案：

本發(fā)明一種針對家譜人物屬性名稱的融合方法的特點是按如下步驟進行：

步驟1、獲取z個不同的家譜人物屬性名稱的列表，記為{A₁,A₂,…,A_i,…,A_z}，其中，A_i表示第i個家譜人物屬性名稱的列表，并有表示第i個列表中第t個家譜人物屬性名稱，h_i表示第i個列表中所包含的家譜人物屬性名稱的總數，z≥2；1≤i≤z；1≤t≤h_i；

步驟2、初始化i＝1；

步驟3、定義第i個列表Lⁱ，并初始化Lⁱ為空；

步驟4、判斷列表Lⁱ是否為空；若為空，則執(zhí)行步驟5；否則，執(zhí)行步驟6；

步驟5、獲取第i+1個列表Lⁱ⁺¹：

步驟5.1、將第i個列表A_i賦值給第i個列表Lⁱ，并刪除第i個列表Lⁱ中含有非中文字符的家譜人物屬性名稱，得到第一次刪除后的列表表示第一次刪除后的列表L^′i中第t′個元素，h′_i表示第一次刪除后的列表L^′i中包含的元素的總數，1≤t′≤h′_i；

步驟5.2、刪除所述第一次刪除后的列表L^′i中不符合規(guī)則的家譜人物屬性名稱，得到第二次刪除后的列表L^″i；

步驟5.2.1、定義變量k，初始化t′＝1；

步驟5.2.2、初始化k＝t′+1；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。