[發明專利]同名人物的識別處理方法及處理裝置在審
| 申請號: | 202010167476.X | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111428503A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 吳信東;劉古劉;李磊 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/36;G06K9/62 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 同名 人物 識別 處理 方法 裝置 | ||
1.一種同名人物的識別處理方法,其特征在于,包括:
獲取與目標人物具有相同姓名的人物集合以及每一個人物的描述信息;
從所述描述信息中提取包含時間上下文的人物屬性和事件信息;
計算所述人物集合中任意兩個人物的屬性相似度和事件信息相似度;
至少基于所述屬性相似度和事件信息相似度確定所述人物集合中所述任意兩個人物是否為同一人物。
2.根據權利要求1所述的識別處理方法,其特征在于,獲取與目標人物具有相同姓名的人物集合以及每一個人物的描述信息,包括:
從人物知識圖譜數據庫中提取具有相同姓名的人物集合,以及從每個人物集合中獲取所述每一個人物的描述信息。
3.根據權利要求1所述的識別處理方法,其特征在于,至少基于所述屬性相似度和事件信息相似度確定所述人物集合中所述任意兩個人物是否為同一人物,包括:
獲取所述目標人物所在的知識圖譜中的目標關系相似度;
基于所述屬性相似度、所述事件信息相似度和所述目標關系相似度確定所述人物集合中所述任意兩個人物是否為同一實體。
4.根據權利要求3所述的識別處理方法,其特征在于,所述目標關系相似度通過以下方式確定:
對所述任意兩個人物的親屬關系相似度與社交關系相似度進行加權求和,得到所述目標關系相似度;
其中,所述親屬關系相似度權重系數大于社交關系相似度。
5.根據權利要求3所述的識別處理方法,其特征在于,基于所述屬性相似度、所述事件信息相似度和所述目標關系相似度確定所述人物集合中所述任意兩個人物是否為同一實體,包括:
對所述屬性相似度、所述事件信息相似度和所述目標關系相似度進行加權求和,得到目標相似度;
比較所述目標相似度與設定閾值,若所述目標相似度大于或等于所述設定閾值,則確定所述任意兩個人物屬于同一實體。
6.根據權利要求3所述的識別處理方法,其特征在于,獲取所述任意兩個人物在所述目標人物所在的知識圖譜中的目標關系相似度之前,還包括:
獲取現有的每個人物的關系列表其中,rsubject表示關系主體,rname表示關系名,robject表示關系客體。
7.根據權利要求1所述的識別處理方法,其特征在于,從所述描述信息中提取包含時間上下文的人物屬性和事件信息,包括:
對于人物pi,采用時間正則表達式提取描述信息中的時間序列將人物pi描述信息按所述時間序列Ti分段,得到分段文本序列W={W1,W2,...Wn},其中分段文本bk表示文本、表示時間標簽,k=1,2,3,…,n。
8.根據權利要求7所述的識別處理方法,其特征在于,采用時間正則表達式提取描述信息中的時間序列將描述信息按所述時間序列Ti分段,得分段文本序列W={W1,W2,...Wn}之后,所述方法包括:
對分段文本依據字典庫和依存句法分析工具或關系抽取工具提取人物關系集合其中表示按照分段文本提取的人物關系集合;
對人物所有分段文本進行人物關系的提取,得到
利用提取的人物關系集合補充所述人物pi的關系集合得到人物關系知識圖譜
從人物關系知識圖譜獲取所述任意兩個人物的親屬關系相似度與社交關系相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010167476.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高精度的板材折彎機
- 下一篇:脊柱側彎測量椅





