[發(fā)明專利]實體消歧的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010169248.6 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111414759A | 公開(公告)日: | 2020-07-14 |
| 發(fā)明(設(shè)計)人: | 齊云飛;付驍弈;張杰 | 申請(專利權(quán))人: | 北京明略軟件系統(tǒng)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 北京安信方達知識產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 王素燕;龍洪 |
| 地址: | 100084 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實體 方法 系統(tǒng) | ||
本發(fā)明實施例公開了一種實體消歧的方法及裝置,應(yīng)用于分布式平臺,其中該方法包括:將待消歧實體的詞向量數(shù)據(jù)劃分為多個部分,對每個部分的詞向量數(shù)據(jù)進行聚類得到每個部分中每一類的類表示向量;將所有部分的所有類表示向量一同再次進行聚類,得到最終聚類結(jié)果;其中,不同部分的詞向量數(shù)據(jù)由所述分布式平臺中的不同節(jié)點進行聚類。如此,利用分布式平臺通過二次聚類來完成實體消歧,能夠滿足對大量實體詞進行實體消歧的需求。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,尤指一種實體消歧的方法及裝置。
背景技術(shù)
信息抽取在自然語言處理中是一個很重要的工作,特別在當今信息爆炸的背景下,顯得格外的重要。在抽取的眾多實體中,將意義相近的詞合并是一個重要課題,該課題被稱作實體消歧。
實體在自然語言處理領(lǐng)域,可以簡單理解為名詞,例如人名、機構(gòu)名、地名以及其他所有以名稱為標識的實體,更廣泛的實體還包括數(shù)字、日期、貨幣、地址等等。一個實體可以有多個意思,例如同一個實體在不同的上下文中所表示的含義是不一樣的。對于人來說,可以直觀判斷出這些實體代表的具體含義,但是對機器來說,就需要借助自然語言處理技術(shù)才能識別出每一個實體代表的具體含義,并能夠區(qū)分不同的實體,即實體消歧技術(shù)。
目前,可以應(yīng)用在分布式環(huán)境中的機器學習算法非常少的,只有少量簡單機器學習算法可應(yīng)用于分布式計算平臺上,對于大量其他算法仍然是計算在單機環(huán)境中,但是在單機環(huán)境中運行帶來的問題就是計算能力有限,計算速度較慢,無法滿足對大量實體詞進行實體消歧的需求。可以說,現(xiàn)有技術(shù)中還沒有能夠滿足對大量實體詞進行實體消歧的方案。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供了一種一種實體消歧的方法,應(yīng)用于分布式平臺,包括:
將待消歧實體的詞向量數(shù)據(jù)劃分為多個部分,對每個部分的詞向量數(shù)據(jù)進行聚類得到每個部分中每一類的類表示向量;
將所有部分的所有類表示向量一同再次進行聚類,得到最終聚類結(jié)果;
其中,不同部分的詞向量數(shù)據(jù)由所述分布式平臺中的不同節(jié)點進行聚類。
本發(fā)明實施例還提供了一種實體消歧的裝置,應(yīng)用于分布式平臺,包括:
第一聚類單元,用于將待消歧實體的詞向量數(shù)據(jù)劃分為多個部分,對每個部分的詞向量數(shù)據(jù)進行聚類得到每個部分中每一類的類表示向量;
第二聚類單元,用于將所有部分的所有類表示向量一同再次進行聚類,得到最終聚類結(jié)果;
其中,不同部分的詞向量數(shù)據(jù)由所述分布式平臺中的不同節(jié)點進行聚類。
本發(fā)明實施例還提供了一種電子裝置,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)上述實體消歧的方法。
本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有信息處理程序,所述信息處理程序被處理器執(zhí)行時實現(xiàn)上述實體消歧的方法的步驟。
本發(fā)明實施例提供的技術(shù)方案,利用分布式平臺通過二次聚類來完成實體消歧,能夠滿足對大量實體詞進行實體消歧的需求。
本申請的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本申請而了解。本申請的其他優(yōu)點可通過在說明書以及附圖中所描述的方案來實現(xiàn)和獲得。
附圖說明
附圖用來提供對本申請技術(shù)方案的理解,并且構(gòu)成說明書的一部分,與本申請的實施例一起用于解釋本申請的技術(shù)方案,并不構(gòu)成對本申請技術(shù)方案的限制。
圖1為本發(fā)明一實施例提供的一種實體消歧的方法的流程示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明略軟件系統(tǒng)有限公司,未經(jīng)北京明略軟件系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010169248.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





