[發明專利]基于異質網絡時態語義路徑相似度的人物唯一性識別方法有效
| 申請號: | 201310746652.5 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103678279A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 黃芳;朱磊 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 中南大學專利中心 43200 | 代理人: | 胡燕瑜 |
| 地址: | 410083 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 時態 語義 路徑 相似 人物 唯一 識別 方法 | ||
技術領域
本發明屬于計算機應用技術領域,涉及一種基于異質網絡結構的時態語義路徑相似度的人物唯一性識別方法。
技術背景
????從海量的文本信息中抽出語義關系網絡是社會關系網絡建模與挖掘的重要研究課題。通常,從Web頁面、電子文檔庫、事務數據庫以及關系數據庫中抽取大規模社會關系網絡時,由于事務信息的時間差異、信息的不完整以及信息模式與結構的不同,導致網絡中人物關系的混亂,這使得人物的唯一性難以確定,這個問題已經成為社會關系網絡分析過程中亟待解決的關鍵問題。
傳統的社會關系網絡分析與挖掘建立在以文本數據或關系型數據庫為基礎的同質關系網絡(Homogeneous?Network)基礎之上的,其基本特征是網絡中的節點和關系的類型相同,例如,在“師生關系”網絡中,節點類型只有“人”(老師或學生),關系類型只有“師從關系”。由于上述網絡特征,即使是社會關系網絡規模較大的情況下,同質關系網絡很難提供多樣性的社會關系信息,利用網絡中同種類型的社會關系建立的相似度很難對網絡中人物準確地識別。由于人的社會關系是蘊含在社會活動事務記錄中,這些信息一般包含在求職簡歷、各類項目申請書、客戶記錄以及個人網頁等各類形式、結構和來源不一的電子文檔中,這使得能夠代表人物的基本屬性信息往往會出現矛盾或二義性現象,其唯一性難以確定。然而,由人的各類事務活動信息建立的社會關系具有多樣性語義網絡特征,是一個異質結構的關系網絡。與同質關系網絡不同,異質關系網絡(Heterogeneous?Network)中的節點類型和節點之間的關系類型并不唯一,多樣化的節點類型決定了多樣化的關系類型,在這種網絡中的人物節點的唯一性完全可以由人物固有的社會關系來確定,所以,我們提出以異質關系網絡為基礎的人物唯一性識別方案。
異質關系網絡具有多樣化的節點類型和節點之間的關系類型,例如,學術關系網絡就是一種典型的異質網絡,學者關系除“師生關系”、“校友關系”外,還包括了“合著論文關系”、“項目合作關系”等多種關系,可以全面反映人物的學術關系信息。每種關系網絡之下,節點的類型也有所不同,如“合著論文關系”中的節點就分為“人(論文作者)”和“文章(學術論文)”兩種類型。在異質關系網絡中,多樣化的節點類型決定著多樣化的關系類型,這些特征本質上可以從不同的側面全面地描述人物在不同性質的社會活動中所形成的社會關系網絡。然而,在實際的社會關系網絡中,不同的人物對象可能具有完全相同的異質網絡結構,但由于這些關系的時間屬性不相同,使得具有相同網絡結構的節點在時間上并不相同,例如,“張三”分別于1998年至2002年以及2003年至2005年在湖南大學和中南大學獲得學士和碩士學位,“李四”分別于2000年至2004年以及2006年至2009年在湖南大學和中南大學獲得學士與碩士學位,雖然“張三”和“李四”曾經都就讀于湖南大學和中南大學,在“求學經歷”關系上具有相同的網絡結構,但由于就讀的時間不同,所以上述關系并不是相同的關系。所以,僅利用網絡結構無法完全對人物對象的唯一性進行準確的識別,因為關系的時間屬性不同直接決定了關系的不同。為此,我們提出用時態語義路徑計算相似度的方法,可以更加準確的識別相同的社會關系,從而保證了人物唯一性識別的準確性。
發明內容
本發明的目的是提出了一種基于異質網絡時態語義路徑相似度的人物唯一性識別方法。該方法從異質關系網絡中提取人物對象和關系的基本屬性,通過對時態語義路徑上的時態權重的計算,求出人物對象之間的時態語義路徑相似度,根據該相似度的值判斷人物對象的唯一性。該方法能在較大數據規模和較高網絡復雜度的社會關系網絡中,準確且高效地識別出相同的人物對象,能有效地解決關系網絡中人物唯一性識別問題。
本發明的技術解決方案如下:
一種基于異質網絡時態語義路徑相似度的人物唯一性識別方法,包括以下步驟:
步驟1:建立異質社會關系網絡,該過程從人物社會活動事務數據庫中提取關系并建立具有時間屬性的異質關系網絡;?
步驟2:搜索時態語義路徑:首先根據異質網絡中的關系的不同語義對網絡進行劃分,然后分別在不同語義的關系網絡中利用網絡結構對人物對象之間的時態語義路徑進行搜索;
步驟3:計算時態語義路徑相似度????????????????????????????????????????????????:分別在不同語義的關系網絡中,利用異質社會關系網絡特征以及時態語義路徑對網絡中人物對象的相似度進行測算;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310746652.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種專名自動翻譯的方法
- 下一篇:互聯網段落級話題識別系統





