[發明專利]一種基于社會網絡和人名上下文的人物信息消歧處理方法無效
| 申請號: | 201010593747.4 | 申請日: | 2010-12-17 |
| 公開(公告)號: | CN102054029A | 公開(公告)日: | 2011-05-11 |
| 發明(設計)人: | 劉遠超;劉銘;王曉龍;劉秉權;林磊;單麗莉;孫承杰 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 牟永林 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社會 網絡 人名 上下文 人物 信息 處理 方法 | ||
技術領域
本發明涉及一種互聯網人物信息的消歧處理方法。
背景技術
由于通用搜索引擎對垂直領域相關知識的檢索結果遠未達到人們的預期,垂直搜索引擎技術應運而生。命名實體的研究作為垂直搜索引擎技術的核心,其研究也逐漸熱門起來。命名實體是文本中承載信息的重要語言單位。實體概念在文本中的引用(entity?mention,也可稱為指稱項)可以有三種形式:命名性指稱、名詞性指稱和代詞性指稱。圍繞命名實體有一系列的研究任務,例如:命名實體的識別、排歧、屬性抽取、關系抽取等。其中,命名實體識別任務是識別出文本中實體概念的命名性指稱項,并標明其類別(例如人名、地名、機構名、產品名等);命名實體排歧解決的是一個命名性指稱項指稱多個實體概念的問題以及多個命名性指稱項指稱同一個實體概念的問題。
利用搜索引擎檢索人物信息是互聯網用戶的主要活動之一,然而現實世界中,多個人物共用一個人名是很普遍的現象,根據國家語委1989年對第三次全國人口普查資料進行的抽樣調查,單名重名率為67.7%,雙名重名率為32.4%,這導致搜索引擎對某一特定人名的檢索結果往往是共享這一人名的不同人物相關網頁的混合。例如,Google檢索“王剛”返回的前10個結果中就有“國家著名演員”、“中央政治局委員”、“西北工業大學副教授”、“山東黃金籃球隊隊員”、“建筑師”、“中國作家協會會員”等六位不同實體人物。雖然現在有些系統能對檢索結果進行聚類處理,例如Bbmao、人立方等,但它們都把人名當成普通詞匯進行處理,聚類結果的標簽也是這個人名相關的一些詞匯,沒有對人名的重名結果進行區分。如在人立方六度空間中搜索“馬二磊”和“劉德華”的關系時,系統會給出通過“崔青”,“楊臣剛”建立聯系。因此有必要按照文檔中出現的某個指定的人名所指向的人進行聚類。最后,在每個類中,所有指定的人名都必須是指向現實生活中的同一個人,最終形成的結果簡單、精煉、美觀,使用戶更快、更方便的得到所需搜索的人物信息。但現有技術達不到上述要求。
發明內容
本發明的目的是提供一種基于社會網絡和人名上下文的人物信息消歧處理方法,以解決現有技術的搜索引擎對某一特定人名的檢索結果往往是共享這一人名的不同人物相關網頁的混合的問題。它包括下述步驟:一、用戶輸入一個要檢索的人名,利用搜索引擎完成檢索,利用下載軟件把檢索到的網頁下載到本地計算機;二、對上述網頁分別進行正文提取處理、分詞處理和詞性標注的處理,形成文檔;三、利用人物領域信息先對文檔進行分類,再利用社會網絡和上下文信息對人物領域信息進行聚類處理,最終顯示出每個人物領域信息與實體人物之間的對應關系,并且顯示出每個實體人物存在的社會網絡。
由于本發明把檢索到的網頁進行了正文提取、分詞和詞性標注以及分類、聚類等處理,最終確定了實體人物與人物領域信息的對應關系并且顯示出每個實體人物存在的社會網絡,從而每個實體人物所對應的相關網頁都能夠被區分開,因而實現了人物信息的排歧處理。
附圖說明
圖1是本發明的整體原理示意圖,圖2是已基于人物領域信息的預分類示意圖,圖3是基于社會網絡和上下文信息的文檔處理示意圖。
具體實施方式
具體實施方式一:本實施方式包括下述步驟:一、用戶輸入一個要檢索的人名,利用搜索引擎,如Google?API,(即谷歌公司提供的應用編程接口)完成檢索,把檢索到的網頁下載到本地計算機;二、對上述網頁分別進行正文提取、分詞和詞性標注處理,形成文檔;所述分詞即將每句話切分為具有獨立意義的詞條,詞性標注是指同時標記每個詞的如名詞、動詞等詞性,分詞和詞性標注可分別采用廣泛使用的正向最大匹配方法及N元文法等。三、利用人物領域信息先對文檔進行分類,再利用社會網絡和上下文信息對人物領域信息進行聚類處理,最終顯示出每個人物領域信息與實體人物之間的對應關系,并且顯示出每個實體人物存在的社會網絡。
具體實施方式二:本實施方式與實施方式一的不同點是在第三步驟中利用人物領域信息進行分類是這樣進行的:基于人物領域信息進行預分類,將人物信息分為文娛、行政、軍事、科教、體育、醫療、經濟等七大類,對每個類,手工標注若干篇代表性文檔,而后提取每個領域類別的特征信息,形成一個領域特征庫,那么利用SVM進行文檔分類處理,簡單地把現實中的人物進行分類。這樣,一個類型中的人物就和其他類型中的人物分開了,他們之間就沒有可比性了,后續只要處理同一個領域類別中的人物信息就可以了,對同一個類別中的人物進行聚類處理,從而最終實現人物信息的排歧處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010593747.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:聲控筆筒
- 下一篇:一種高能量電源系統的故障保護裝置及其保護方法





