[發明專利]用于收集實體別名的方法和設備有效
| 申請號: | 200810004920.5 | 申請日: | 2008-01-29 |
| 公開(公告)號: | CN101499062A | 公開(公告)日: | 2009-08-05 |
| 發明(設計)人: | 郭志立;張小洵;郭宏蕾;蘇中 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 | 代理人: | 杜 娟 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 收集 實體 別名 方法 設備 | ||
技術領域
本發明涉及信息處理領域。更具體地說,本發明涉及一種用于收 集實體別名的方法、設備和計算機程序產品。
背景技術
在安全、商業分析和科學研究等領域中經常需要進行實體別名的 檢測和識別。術語“實體(entity)”,如在本申請的上下文中所使用 的,指的是為其存儲了信息的特定對象或事件,例如人名、地名、機 構名稱、產品名稱,等等。一個實體通常具有若干“別名(alias)”, 其指的是該實體的約定俗成的其他名稱,例如該實體的曾用名稱、簡 稱、或者經常被誤用的名稱。例如,機構實體“北京科技大學”具有別 名“北京鋼鐵學院”(曾用名稱)、“北科大”(簡稱)、“鋼鐵學院”(曾 用名稱的簡稱)、“首都科技大學”(誤用名稱),等等。在理想的實 體數據集中,希望識別同一實體的所有別名并將其匯集到一個組中, 使得這種實體數據集能夠更好地服務于各種應用,例如數據倉庫構 建、客戶關系管理(CRM)和欺詐檢測,等等。實體別名的檢測和識 別正在成為越來越重要的任務。
目前解決實體別名問題的現有方案主要集中在實體身份的辨析 上,即如何通過各種可以獲得的線索來辨析兩個或者更多的實體是否 相同。這些方案可以根據它們是否使用了參考數據集而分為兩種類 別:在第一種類別中,將所有的輸入實體與現有的參考實體相匹配, 與同一參考實體匹配的那些實體被認為是別名。在第二種類別中,直 接將輸入實體互相匹配。在任何一種方案中,其核心匹配方法依賴于 計算與實體相關聯的詞的詞法、拼法、語音、語義相似性。例如,基 于語音的Soundex算法通過去除所有元音并用人類話音的六種語音 分類(雙唇輔音、唇齒音、齒音、齒齦音、軟腭音、喉塞音)表示輔 音來對所有英文單詞進行編碼。編輯距離(Edit?distance)算法假定 兩個字串之間的差別可以用三種寫法轉換(插入、刪除、替換)來衡 量。基于行為(Behavior-based)的算法則認為,如果兩個實體在數 據集中共享相似的語義鏈接,則它們是相關聯的(例如,如果兩個電 子郵件ID具有相同的輸入輸出電子郵件模式,則它們很有可能由同 一實體擁有)。
上述的兩種解決實體別名問題的現有方案均是在已經通過某種 途徑獲得了若干實體(即所述的“輸入實體”)的前提下,對這些實體 進行辨析,而不涉及如何得到這些輸入實體。因此,這些現有方案不 能解決針對一個特定的實體,如何得到其所有可能別名的集合的問 題。
另一方面,在Web2.0技術中,人們很容易從社會化標簽網站獲 得關于Web對象的社會化標簽。在網絡社會化環境中,允許作者和 讀者為Web對象(例如Web頁面、圖象、或視頻片段)選擇他們喜 好的“標簽”,也就是與該Web對象相關聯的關鍵詞或術語,并與他 人共享。作為由公眾賦予Web對象的一種元數據,社會化標簽使得 網絡信息的社會性分享成為可能。例如,當一個讀者對某個Web對 象感興趣時,他可以從社會化標簽網站獲得其他人對該Web對象所 添加的標簽的列表,從而有助于該讀者迅速地辨別該對象的性質、用 途,等等。
然而,目前還沒有人將社會化標簽這種實現網絡信息的社會性分 享的工具應用于實體別名的收集。
發明內容
本發明的目的是解決現有技術中的上述問題,提出一種通過社會 化標簽來自動和迅速地收集實體別名的方法、設備和計算機程序產 品。
根據本發明的第一個方面,提出一種用于收集實體別名的方法, 包括以下步驟:利用Web搜索引擎獲得與用戶輸入的實體相關聯的 Web對象;從社會化標簽網站獲得所述Web對象的社會化標簽,作 為所述用戶輸入的實體的候選別名;以及對所述候選別名進行求精, 從而獲得所述用戶輸入的實體的別名的集合。
根據本發明的第二個方面,提出一種用于收集實體別名的設備, 包括:用于利用Web搜索引擎獲得與用戶輸入的實體相關聯的Web 對象的裝置;用于從社會化標簽網站獲得所述Web對象的社會化標 簽作為所述用戶輸入的實體的候選別名的裝置;以及對所述候選別名 進行求精、從而獲得所述用戶輸入的實體的別名的集合的裝置。
根據本發明的第三個方面,提出一種用于實現本發明的用于收集 實體別名的方法的計算機程序產品。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810004920.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:灰度級和彩色顯示方法和裝置
- 下一篇:可自動調整色度的磷光體組合物





