[發明專利]實體消歧的方法及系統在審
| 申請號: | 202010169248.6 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111414759A | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 齊云飛;付驍弈;張杰 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王素燕;龍洪 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 方法 系統 | ||
1.一種實體消歧的方法,應用于分布式平臺,包括:
將待消歧實體的詞向量數據劃分為多個部分,對每個部分的詞向量數據進行聚類得到每個部分中每一類的類表示向量;
將所有部分的所有類表示向量一同再次進行聚類,得到最終聚類結果;
其中,不同部分的詞向量數據由所述分布式平臺中的不同節點進行聚類。
2.根據權利要求1所述的方法,其特征在于,所述對每個部分的詞向量數據進行聚類得到每個部分中每一類的類表示向量,包括:
對于每個部分的詞向量數據分別進行如下操作:
采用相似度算法計算該部分中每兩個實體之間的相似度;
使用聚類算法根據該部分中每兩個實體之間的相似度進行聚類;
將該部分中聚類得到的每一類內所有詞向量數據分別相加后取平均,得到該部分中每一類的類表示向量。
3.根據權利要求1所述的方法,其特征了在于,所述將所有部分的所有類表示向量一同再次進行聚類,得到最終聚類結果,包括:
采用相似度算法計算每兩類之間的相似度;
使用聚類算法根據每兩類之間的相似度再次進行聚類;
將再次聚類得到的每一類內所有詞向量數據相加后取平均得到再次聚類后的每一類的類表示向量。
4.根據權利要求1所述的方法,其特征在于,在將待消歧實體的詞向量數據進行劃分之前,該方法還包括:
根據預設篩選規則對原始實體詞向量數據進行篩選,得到所述待消歧實體的詞向量數據。
5.根據權利要求4所述的方法,其特征在于,在根據預設篩選規則對原始實體詞向量數據進行篩選之前,該方法還包括:
利用實體識別NER模型從原始數據中識別出原始實體詞向量數據。
6.根據權利要求5所述的方法,其特征在于,所述根據預設篩選規則對原始實體詞向量數據進行篩選,得到所述待消歧實體的詞向量數據,包括:
將所述原始實體詞向量數據輸入到分布式平臺的Kafka隊列中;
使用分布式平臺的Flink計算引擎從Kafka隊列中讀取所述原始實體詞向量數據,再根據預設篩選規則對原始實體數據進行篩選,得到所述待消歧實體的詞向量數據并保存到分布式平臺的分布式文件系統HDFS。
7.根據權利要求2-3任一項所述的方法,其特征在于,
所述聚類算法為DBSCAN算法,所述相似度算法為余弦相似度算法。
8.一種實體消歧的裝置,其特征在于,應用于分布式平臺,包括:
第一聚類單元,用于將待消歧實體的詞向量數據劃分為多個部分,對每個部分的詞向量數據進行聚類得到每個部分中每一類的類表示向量;
第二聚類單元,用于將所有部分的所有類表示向量一同再次進行聚類,得到最終聚類結果;
其中,不同部分的詞向量數據由所述分布式平臺中的不同節點進行聚類。
9.一種電子裝置,其特征在于,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現如權利要求1至7中任一項所述實體消歧的方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有信息處理程序,所述信息處理程序被處理器執行時實現如權利要求1至7中任一項所述實體消歧的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010169248.6/1.html,轉載請聲明來源鉆瓜專利網。





