[發(fā)明專利]實(shí)體分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010229110.0 | 申請日: | 2020-03-27 |
| 公開(公告)號: | CN111444344B | 公開(公告)日: | 2022-10-25 |
| 發(fā)明(設(shè)計(jì))人: | 王安然 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F16/958;G06K9/62 |
| 代理公司: | 華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實(shí)體 分類 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲 介質(zhì) | ||
本申請涉及一種實(shí)體分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。所述方法包括:獲取待分類實(shí)體對應(yīng)的屬性文本,屬性文本包括實(shí)體描述文本、屬性名稱和屬性值;獲取各個預(yù)設(shè)正則表達(dá)式和對應(yīng)的類別,將屬性名稱和屬性值與各個預(yù)設(shè)正則表達(dá)式進(jìn)行匹配,得到待分類實(shí)體對應(yīng)的第一候選類別;根據(jù)實(shí)體描述文本、屬性名稱和屬性值確定待分類實(shí)體對應(yīng)的實(shí)體向量,識別實(shí)體向量對應(yīng)的類別,得到待分類實(shí)體對應(yīng)的第二候選類別;將第一候選類別和第二候選類別進(jìn)行融合,得到融合類別集,獲取類別繼承關(guān)系樹,按照類別繼承關(guān)系樹從融合類別集中確定葉子節(jié)點(diǎn)型類別集,將葉子節(jié)點(diǎn)型類別集作為待分類實(shí)體對應(yīng)的實(shí)體類別集。采用本方法能夠提高實(shí)體分類的精確性。
技術(shù)領(lǐng)域
本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種實(shí)體分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。
背景技術(shù)
知識圖譜在圖書情報(bào)界稱為知識域可視化或知識領(lǐng)域映射地圖,是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。
隨著知識圖譜技術(shù)的發(fā)展,實(shí)體分類是知識圖譜構(gòu)建中的一項(xiàng)基本工作,旨在對圖譜中的實(shí)體進(jìn)行分類。目前,通常通過構(gòu)建實(shí)體的表示特征,根據(jù)實(shí)體的表示特征進(jìn)行分類。然而根據(jù)實(shí)體的表示特征進(jìn)行分類,會得到該實(shí)體所有的類別,導(dǎo)致會出現(xiàn)一些不夠精確的類別。比如,“張某”是“人物”類別,同時也是“導(dǎo)演”類別,則“人物”類別就不夠精確,從而導(dǎo)致實(shí)體分類的結(jié)果精確性較低。
發(fā)明內(nèi)容
基于此,有必要針對上述技術(shù)問題,提供一種能夠提高實(shí)體分類精確性的實(shí)體分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。
一種實(shí)體分類方法,所述方法包括:
獲取待分類實(shí)體對應(yīng)的屬性文本,屬性文本中包括實(shí)體描述文本、屬性名稱和屬性值;
獲取各個預(yù)設(shè)正則表達(dá)式和對應(yīng)的類別,將屬性名稱和屬性值與各個預(yù)設(shè)正則表達(dá)式進(jìn)行匹配,將匹配成功的預(yù)設(shè)正則表達(dá)式對應(yīng)的類別作為待分類實(shí)體對應(yīng)的第一候選類別;
根據(jù)實(shí)體描述文本、屬性名稱和屬性值確定待分類實(shí)體對應(yīng)的實(shí)體向量,識別實(shí)體向量對應(yīng)的類別,得到待分類實(shí)體對應(yīng)的第二候選類別;
將第一候選類別和第二候選類別進(jìn)行融合,得到融合類別集,并獲取類別繼承關(guān)系樹,按照類別繼承關(guān)系樹從融合類別集中確定葉子節(jié)點(diǎn)型類別集,將葉子節(jié)點(diǎn)型類別集作為待分類實(shí)體對應(yīng)的實(shí)體類別集。
一種實(shí)體分類裝置,所述裝置包括:
文本獲取模塊,用于獲取待分類實(shí)體對應(yīng)的屬性文本,屬性文本中包括實(shí)體描述文本、屬性名稱和屬性值;
匹配模塊,用于獲取各個預(yù)設(shè)正則表達(dá)式和對應(yīng)的類別,將屬性名稱和屬性值與各個預(yù)設(shè)正則表達(dá)式進(jìn)行匹配,將匹配成功的預(yù)設(shè)正則表達(dá)式對應(yīng)的類別作為待分類實(shí)體對應(yīng)的第一候選類別;
識別模塊,用于根據(jù)實(shí)體描述文本、屬性名稱和屬性值確定待分類實(shí)體對應(yīng)的實(shí)體向量,識別實(shí)體向量對應(yīng)的類別,得到待分類實(shí)體對應(yīng)的第二候選類別;
類別得到模塊,用于將第一候選類別和第二候選類別進(jìn)行融合,得到融合類別集,并獲取類別繼承關(guān)系樹,按照類別繼承關(guān)系樹從融合類別集中確定葉子節(jié)點(diǎn)型類別集,將葉子節(jié)點(diǎn)型類別集作為待分類實(shí)體對應(yīng)的實(shí)體類別集。
一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)以下步驟:
獲取待分類實(shí)體對應(yīng)的屬性文本,屬性文本中包括實(shí)體描述文本、屬性名稱和屬性值;
獲取各個預(yù)設(shè)正則表達(dá)式和對應(yīng)的類別,將屬性名稱和屬性值與各個預(yù)設(shè)正則表達(dá)式進(jìn)行匹配,將匹配成功的預(yù)設(shè)正則表達(dá)式對應(yīng)的類別作為待分類實(shí)體對應(yīng)的第一候選類別;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010229110.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種實(shí)體關(guān)系識別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于實(shí)體對齊的屬性融合方法、裝置、設(shè)備及存儲介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲介質(zhì)





