[發明專利]一種基于本體的中文人名消歧方法在審
| 申請號: | 201310202444.9 | 申請日: | 2013-05-27 |
| 公開(公告)號: | CN104182420A | 公開(公告)日: | 2014-12-03 |
| 發明(設計)人: | 呂釗;羅年潔 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 黃嵩泉;呂俊清 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 本體 中文 人名 方法 | ||
1.一種基于本體的中文人名消歧方法,其特征在于,包括以下步驟:
定義人物屬性,定義出人物本體中涉及的概念、屬性和關系;
定義人物本體的概念及其結構,創建實體這個頂層類,再在其下層添加抽象和物質兩大子類;
定義人物本體的屬性,屬性包括兩個部分:數據屬性和對象屬性;
抽取人物屬性;
人名實例化,將人物本體中所有的概念創建相應的實例,主要是對本體中的概念所關聯的屬性進行賦值;
人物本體實例樹匹配,通過在本體的概念層級上度量人物實例間的相似度以及在本體的屬性值層級上度量人物實例間的相似度來衡量人物實例間的總體相似度;
相似度排序;以及
鏈接人名到最相似的人物實例。
2.如權利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述人物屬性為人物所具有的特征集合,包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社會。
3.如權利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述物質類下層定義人物這個概念實體,代表人物自身;
抽象類下層繼續構建屬性類,并在其下層,即中間層級上,繼續添加人物名稱、基本屬性、介紹性信息、聯系方式、值類、個人關系這六大概念類,將人物本體組織成一個具有上下位關系的樹狀結構。
4.如權利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述抽取人物屬性包括半結構文本的屬性抽取,從網頁中的所有百科名片中抽取出人物的基本信息,并轉換為一種自定義的有結構的可擴展標記語言頁面,主要將超文本標記語言結構的方式和半結構化文本抽取方式結合,搜集由人名對應的百科頁面,對源碼解析,確定所抽取的信息塊,分析信息塊的特征及超文本標記語言特征標簽,歸納總結信息項的抽取規則,用于后續的大批量的百科頁面的信息抽取。
5.如權利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述抽取人物屬性包括非結構文本的屬性抽取,通過非結構的人物簡介來描述人物的相關信息。
6.如權利要求5所述的一種基于本體的中文人名消歧方法,其特征在于:從三個方面來定義每個屬性的抽取規則:屬性信息的前后觸發詞、屬性信息的自身特征以及屬性信息的左右邊界。
7.如權利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:在所述本體的概念層級上度量人物實例間的相似度的計算公式如下:
分別表示C1,C2集合中的任意概念節點;表示概念節點對之間的相似性;Simc(P1,P2)表示兩個人物實例P1和P2在本體的概念層級上的相似性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學;,未經華東師范大學;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310202444.9/1.html,轉載請聲明來源鉆瓜專利網。





