[發明專利]概念挖掘方法及裝置、電子設備及可讀存儲介質有效
| 申請號: | 202210320584.5 | 申請日: | 2022-03-29 |
| 公開(公告)號: | CN114741508B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 付俊杰;王宗宇;謝睿;武威 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/216;G06F40/289;G06N3/0442 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 概念 挖掘 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種概念挖掘方法,其特征在于,包括:
獲取目標文本對應的候選概念;
通過預先訓練完成的概念判別模型,根據所述目標文本的文本特征以及所述候選概念的概念特征,確定所述候選概念是否為合理候選概念,所述文本特征為所述目標文本對應的自然語言文本的文本向量,所述候選概念的概念特征為所述候選概念對應的文本向量;
所述概念判別模型包括統計模型子網絡、文本識別子網絡以及圖向量子網絡,其中,所述通過預先訓練完成的概念判別模型,根據所述目標文本的文本特征以及所述候選概念的概念特征,確定所述候選概念是否為合理候選概念,包括:通過所述統計模型子網絡,根據所述目標文本對應的統計特征,確定所述目標文本對應的第一向量表示;
通過所述文本識別子網絡,確定所述文本特征對應的第二向量表示;通過所述圖向量子網絡,確定所述概念特征對應的第三向量表示,包括:通過所述圖向量子網絡中的圖向量層,確定所述概念特征對應的圖向量;通過所述圖向量子網絡中的編碼層,對所述圖向量進行編碼,以得到所述第三向量表示;根據所述第一向量表示、所述第二向量表示以及所述第三向量表示對所述候選概念進行打分,并根據所述候選概念的分數確定所述候選概念是否為合理候選概念;
若所述候選概念為合理候選概念,則根據預設概念清洗規則對所述候選概念進行數據清洗,以得到所述目標文本對應的目標概念;否則,丟棄所述候選概念。
2.根據權利要求1所述的方法,其特征在于,獲取目標文本對應的候選概念,包括以下至少之一:
從預設數據庫中存儲的候選短語中獲取所述候選概念;或,對預設平臺中的用戶搜索詞進行分詞,以得到所述候選概念;或,
通過預先訓練完成的短語挖掘模型,從所述預設平臺的用戶生成數據中獲取所述候選概念。
3.根據權利要求1所述的方法,其特征在于,若所述候選概念為合理候選概念,則根據預設概念清洗規則對所述候選概念進行數據清洗,包括以下之一:
根據預先訓練完成的緊密度模型對所述候選概念進行數據清洗,以得到原子概念數據;或,
對所述候選概念進行實例數據清洗;或,
對所述候選概念進行校錯。
4.一種概念挖掘裝置,其特征在于,包括:
獲取模塊,用于獲取目標文本對應的候選概念;
確定模塊,用于通過預先訓練完成的概念判別模型,根據所述目標文本的文本特征以及所述候選概念的概念特征,確定所述候選概念是否為合理候選概念,所述文本特征為所述目標文本對應的自然語言文本的文本向量,所述候選概念的概念特征為所述候選概念對應的文本向量;
處理模塊,用于若所述候選概念為合理候選概念,則根據預設概念清洗規則對所述候選概念進行數據清洗,以得到所述目標文本對應的目標概念;若所述候選概念不是合理候選概念,丟棄所述候選概念;
其中,所述概念判別模型包括統計模型子網絡、文本識別子網絡以及圖向量子網絡,所述確定模塊包括:
第一確定子模塊,用于通過所述統計模型子網絡,根據所述目標文本對應的統計特征,確定所述目標文本對應的第一向量表示;
第二確定子模塊,用于通過所述文本識別子網絡,確定所述文本特征對應的第二向量表示;
第三確定子模塊,用于通過所述圖向量子網絡,確定所述概念特征對應的第三向量表示,所述第三確定子模塊包括:確定單元,用于通過所述圖向量子網絡中的圖向量層,確定所述概念特征對應的圖向量;編碼單元,用于通過所述圖向量子網絡中的編碼層,對所述圖向量進行編碼,以得到所述第三向量表示;
第四確定子模塊,用于根據所述第一向量表示、所述第二向量表示以及所述第三向量表示對所述候選概念進行打分,并根據所述候選概念的分數確定所述候選概念是否為合理候選概念。
5.根據權利要求4所述的裝置,其特征在于,所述獲取模塊包括以下至少之一:
第一獲取子模塊,用于從預設數據庫中存儲的候選短語中獲取所述候選概念;或,
第一處理子模塊,用于對預設平臺中的用戶搜索詞進行分詞,以得到所述候選概念;或,
第二獲取子模塊,用于通過預先訓練完成的短語挖掘模型,從所述預設平臺的用戶生成數據中獲取所述候選概念。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210320584.5/1.html,轉載請聲明來源鉆瓜專利網。





