[發明專利]同名人物的識別處理方法及處理裝置在審
| 申請號: | 202010167476.X | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111428503A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 吳信東;劉古劉;李磊 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/36;G06K9/62 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 同名 人物 識別 處理 方法 裝置 | ||
本發明公開了一種同名人物的識別處理方法及處理裝置。其中,該方法包括:獲取與目標人物具有相同姓名的人物集合以及每一個人物的描述信息;從描述信息中提取包含時間上下文的人物屬性和事件信息;計算人物集合中任意兩個人物的屬性相似度和事件信息相似度;至少基于屬性相似度和事件信息相似度確定人物集合中任意兩個人物是否為同一人物。本發明解決了由于人物屬性及關系信息不充分造成的識別同名人物是否指代同一實體不準確的技術問題。
技術領域
本發明涉及人物分類領域,具體而言,涉及一種同名人物的識別處理方法及處理裝置。
背景技術
知識圖譜又稱為科學知識圖譜,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系,在各個領域得到了廣泛的應用,尤其在同名人物識別領域,往往利用原有的知識圖譜進行人物的相似度判斷,但這種方法往往忽略了時間變遷導致的人物屬性的表更對人物相似度的影響,進而在判斷同名人物是夠指代同一實體時,存在識別不準確的問題。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種同名人物的識別處理方法及處理裝置,以至少解決由于人物屬性及關系信息不充分造成的識別同名人物是否指代同一實體不準確的技術問題。
根據本發明實施例的一個方面,提供了一種同名人物的識別處理方法,包括:獲取與目標人物具有相同姓名的人物集合以及每一個人物的描述信息;從描述信息中提取包含時間上下文的人物屬性和事件信息;計算人物集合中任意兩個人物的屬性相似度和事件信息相似度;至少基于屬性相似度和事件信息相似度確定人物集合中任意兩個人物是否為同一人物。
可選地,獲取與目標人物具有相同姓名的人物集合以及每一個人物的描述信息,包括:從知識圖譜數據庫中提取具有相同姓名的人物集合,以及每個任務集合中獲取每一個人物的描述信息。
可選地,至少基于屬性相似度和事件信息相似度確定人物集合中任意兩個人物是否為同一人物,包括:獲取目標人物所在的知識圖譜中的目標關系相似度;基于屬性相似度、事件信息相似度和目標關系相似度確定人物集合中任意兩個人物是否為同一實體。
可選地,目標關系相似度通過以下方式確定:對任意兩個人物的親屬關系相似度與社交關系相似度進行加權求和,得到目標關系相似度;其中,親屬關系相似度權重系數人物的社交關系相似度。
可選地,基于屬性相似度、事件信息相似度和目標關系相似度確定人物集合中任意兩個人物是否為同一實體,包括:對屬性相似度、事件信息相似度和目標關系相似度進行加權求和,得到目標相似度;比較目標相似度與設定閾值,若目標相似度大于或等于設定閾值,則確定任意兩個人物屬于同一實體。
可選地,獲取任意兩個人物在目標人物所在的知識圖譜中的目標關系相似度之前,還包括:獲取現有的每個人物的關系列表其中,rsubject表示關系主體,rname表示關系名,robject表示關系客體。
可選地,從描述信息中提取包含時間上下文的人物屬性和事件信息,包括:對于人物pi,采用時間正則表達式提取描述信息中的時間序列將人物pi描述信息按時間序列Ti分段,得到分段文本序列W={W1,W2,...Wn},其中分段文本bk表示文本、表示時間標簽,k=1,2,3,…,n。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010167476.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高精度的板材折彎機
- 下一篇:脊柱側彎測量椅





