[發明專利]一種實現實體消歧的方法、裝置及存儲介質、程序產品有效
| 申請號: | 201711423446.5 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN107992480B | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 蔡巍;崔朝輝;趙立軍;張霞 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣;王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 實體 方法 裝置 存儲 介質 程序 產品 | ||
本申請公開了一種實現實體消歧的方法、裝置及存儲介質、程序產品,用于實現實體消歧,該方法包括:建立第一實體對應的第一共詞網絡以及第二實體對應的第二共詞網絡,第一共詞網絡與第二共詞網絡存在相同的實體節點;計算第一共詞網絡與第二共詞網絡之間的相似度;當相似度大于第一閾值時,則將第一實體與第二實體確定為同一實體;當相似度小于第二閾值時,則將第一實體與第二實體確定為不同實體。
技術領域
本申請涉及數據處理技術領域,具體涉及一種實現實體消歧的方法、裝置及存儲介質、程序產品。
背景技術
實體消歧旨在解決文本中廣泛存在的名稱歧義問題,在語義化搜索、問答系統、知識庫擴充、異構知識庫融合等領域有著廣泛的應用。實體消歧有兩層次含義,一是相同實體的辨別,明確實體的正確指向,確定其語義,例如蘋果可以指代蘋果公司,也可以指代一種水果,此時相同實體需要重名消歧;二是不同實體的關聯對齊,例如東軟和東軟集團,以及歷史文本中出現的東大阿爾派,同指代東軟集團股份有限公司,此時不同實體需要多名聚合。
在英文領域,實體消歧主要依賴于語義知識庫的建設,但是中文實體不同于英文單詞,表達更為靈活,在中文領域中,實體消歧的研究起步較晚,成果也較少,當前還缺乏有效進行實體消歧的方式。
發明內容
有鑒于此,本申請提供一種實現實體消歧的方法、裝置及存儲介質、程序產品,以解決現有技術對于中文領域無法有效實現實體消歧的技術問題。
為解決上述問題,本申請實施例提供的技術方案如下:
一種實現實體消歧的方法,所述方法包括:
建立第一實體對應的第一共詞網絡以及第二實體對應的第二共詞網絡,所述第一共詞網絡與所述第二共詞網絡存在相同的實體節點;
計算所述第一共詞網絡與所述第二共詞網絡之間的相似度;
當所述相似度大于第一閾值時,將所述第一實體與所述第二實體確定為同一實體;
或者,當所述相似度小于第二閾值時,將所述第一實體與所述第二實體確定為不同實體。
可選的,所述當所述相似度大于第一閾值時,將所述第一實體與所述第二實體確定為同一實體,包括:
當所述相似度大于第一閾值時,如果所述第一實體與所述第二實體名稱不同,將所述第一實體與所述第二實體確定為名稱不同的同一實體;
所述當所述相似度小于第二閾值時,將所述第一實體與所述第二實體確定為不同實體,包括:
當所述相似度小于第二閾值時,如果所述第一實體與所述第二實體名稱相同,將所述第一實體與所述第二實體確定為名稱相同的不同實體。
可選的,所述建立第一實體對應的第一共詞網絡以及第二實體對應的第二共詞網絡包括:
獲取所述第一實體對應的第一文本語料以及所述第二實體對應的第二文本語料;
當所述第一文本語料以及所述第二文本語料為非結構化數據時,根據所述第一文本語料提取所述第一實體對應的第一特征詞集合,以及根據所述第二文本語料提取所述第二實體對應的第二特征詞集合;
根據所述第一特征詞集合中各特征詞之間的關系,以及所述第一特征詞集合中各特征詞與所述第一實體之間的關系,建立所述第一實體對應的第一共詞網絡,以及根據所述第二特征詞集合中各特征詞與所述第二實體之間的關系,建立所述第二實體對應的第二共詞網絡。
可選的,所述根據所述第一文本語料提取所述第一實體對應的第一特征詞集合,以及根據所述第二文本語料提取所述第二實體對應的第二特征詞集合包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711423446.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型應急閱片燈箱
- 下一篇:一種偏振調制器





