[發明專利]用于名稱消岐聚類的裝置和方法有效
| 申請號: | 201110056065.4 | 申請日: | 2011-03-03 |
| 公開(公告)號: | CN102654881A | 公開(公告)日: | 2012-09-05 |
| 發明(設計)人: | 王新文;夏迎炬;孟遙;張姝;賈文杰;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 杜誠;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 名稱 消岐聚類 裝置 方法 | ||
技術領域
本發明涉及名稱消岐聚類,尤其涉及利用動態閾值進行名稱消岐聚類的裝置和方法。
背景技術
名稱消岐是最近興起的一個研究方向。名稱消岐是針對由于同一名稱(人名、地名、組織機構名等)被現實中的多個實體使用而產生的名稱歧義現象而提出的,目前大多數的名稱消岐方案采用文本聚類的方法。例如,當利用搜索引擎搜索某個名稱時,作為搜索結果返回大量包含該名稱的網頁D={d1,d2,…,dn},這些網頁中的名稱可能指向現實中的不同實體,聚類的目的是按照不同實體將這些網頁構成的文本集合聚合為若干類C={c1,c2,…,cm},其中每個類ci對應于現實中的一個實體,從而達到消岐的目的。
典型的聚類算法不同程度地涉及對閾值的選擇,而閾值的選擇直接影響聚類效果。然而,由于名稱歧義的特殊性,傳統的文本聚類方法在名稱消岐上的聚類效果差強人意,導致這個問題的主要原因在于對于不同的名稱的聚類最優截斷閾值不同而導致聚類結果不理想。例如,針對某個常用人名的文本集合與針對某個生僻人名的文本集合具有不同的相似度特性,相應地,這兩個文本集合在聚類過程中具有最佳聚類效果的相似度閾值也存在差異。因此,如果采用固定的閾值進行聚類,難以針對具有不同相似度特性的文本集合達到理想的聚類效果。
發明內容
本發明的目的在于提供一種利用動態閾值進行名稱消岐聚類的裝置和方法,以至少部分地克服現有技術的上述缺陷。
根據本發明的一個實施例,提供一種對名稱訓練集進行數據處理的裝置,包括:代表相似度確定單元,用于確定名稱訓練集的代表相似度,該代表相似度為該名稱訓練集中的文本間相似度的代表值;優選相似度閾值選擇單元,用于采用不同的相似度閾值對該名稱訓練集進行聚類以選擇使聚類效果較佳的相似度閾值作為優選相似度閾值;以及函數擬合單元,用于根據至少兩個名稱訓練集中的每個名稱訓練集的代表相似度和優選相似度閾值擬合表示代表相似度與優選相似度閾值之間對應關系的函數。
根據本發明的另一個實施例,提供一種對名稱訓練集進行數據處理的方法,包括步驟:確定至少兩個名稱訓練集中每個名稱訓練集的代表相似度,該代表相似度為相應名稱訓練集中的文本間相似度的代表值;針對至少兩個名稱訓練集中的每個名稱訓練集,采用不同的相似度閾值進行聚類以選擇使聚類效果較佳的相似度閾值作為優選相似度閾值;以及根據至少兩個名稱訓練集中每個名稱訓練集的代表相似度和優選相似度閾值,擬合表示代表相似度與優選相似度閾值之間對應關系的函數。
根據本發明的再一個實施例,提供一種用于名稱消岐的聚類裝置,包括:代表相似度確定單元,用于確定待消岐名稱集的代表相似度;優選相似度閾值估算單元,用于根據表示代表相似度與使聚類效果較佳的優選相似度閾值之間對應關系的預定函數,確定與所確定的代表相似度對應的優選相似度閾值;以及聚類單元,用于利用所確定的優選相似度閾值對待消岐名稱集進行聚類。
根據本發明的又一個實施例,提供一種用于名稱消岐的聚類方法,包括步驟:確定待消岐名稱集的代表相似度;根據表示代表相似度與使聚類效果較佳的優選相似度閾值之間對應關系的預定函數,確定與所確定的代表相似度對應的優選相似度閾值;以及利用所確定的優選相似度閾值對待消岐名稱集進行聚類。
根據本發明的實施例,通過對每個名稱集的聚類閾值進行動態調整,能夠減少由于使用固定閾值而造成的聚類效果偏差,可以針對不同的名稱集給出優選的聚類閾值,從而提高聚類的自適應性,并且提高最終聚類效果。
附圖說明
參照下面結合附圖對本發明實施例進行的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。為了避免因不必要的細節而模糊了本發明,在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發明關系不大的其它細節。
圖1是示出根據本發明實施例的用于對名稱訓練集進行數據處理的裝置100的配置的框圖;
圖2是示出圖1所示的代表相似度確定單元110的配置的框圖;
圖3是示出根據本發明實施例的對名稱訓練集進行數據處理的方法的流程圖;
圖4是示出圖3所示的確定名稱訓練集的代表相似度的步驟S310中的過程的流程圖;
圖5是示出根據本發明實施例的用于名稱消岐的聚類裝置的配置的框圖;
圖6是示出根據本發明實施例的用于名稱消岐的聚類方法的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110056065.4/2.html,轉載請聲明來源鉆瓜專利網。





