[發明專利]用于構建知識體系的方法及裝置、電子設備、存儲介質在審
| 申請號: | 202210415291.5 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114780745A | 公開(公告)日: | 2022-07-22 |
| 發明(設計)人: | 于皓;張杰 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/45;G06K9/62;G06F40/289;G06F40/30 |
| 代理公司: | 北京康盛知識產權代理有限公司 11331 | 代理人: | 陶俊潔 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 構建 知識 體系 方法 裝置 電子設備 存儲 介質 | ||
1.一種用于構建知識體系的方法,其特征在于,包括:
獲取語料;
確定所述語料中的多個實體和各所述實體對應的實體向量;
對各所述實體向量進行聚類獲得若干實體簇;
確定各所述實體簇對應的實體簇語義向量;
確定各所述實體簇語義向量之間的上下位關系;
按照上下位關系連接各所述實體簇語義向量,獲得知識體系。
2.根據權利要求1所述的方法,其特征在于,確定所述語料中的多個實體和各所述實體對應的實體向量,包括:
利用預設的第一知識抽取模型對所述語料進行實體抽取,獲得語料中的多個實體和各實體對應的實體向量。
3.根據權利要求2所述的方法,其特征在于,第一知識抽取模型通過以下方式獲取:
獲取樣本語料;
確定所述樣本語料的多個關鍵詞、各所述關鍵詞對應的詞向量和各所述詞向量對應的權重;
對各所述詞向量進行聚類,獲得若干詞向量類簇;
根據各所述詞向量類簇和各所述詞向量對應的權重標注所述樣本語料中的實體;
將標注過實體的樣本語料輸入預設的領域預訓練模型進行訓練,獲得第二知識抽取模型;
利用所述詞向量類簇對所述第二知識抽取模型進行對比學習,獲得第一知識抽取模型。
4.根據權利要求3所述的方法,其特征在于,根據各所述詞向量類簇和各所述詞向量對應的權重標注所述樣本語料中的實體,包括:
對各詞向量類簇中的詞向量分別按照詞向量對應的權重進行排序,獲得各詞向量序列;
將處于詞向量序列預設位數后的各詞向量確定為備選詞向量;
響應于專家的刪除指令刪除若干個備選詞向量;并響應于專家的命名指令對詞向量類簇命名,獲得類簇名稱;
根據各類簇命名標注所述樣本語料中的實體。
5.根據權利要求1所述的方法,其特征在于,實體簇包括若干子類簇;確定實體簇對應的實體簇語義向量,包括:
分別獲取實體簇的各子類簇與實體簇的類簇中心的距離;
根據各子類簇與類簇中心的距離確定各子類簇的權重;
根據各子類簇的權重確定實體簇對應的實體簇語義向量。
6.根據權利要求1所述的方法,其特征在于,按照上下位關系連接各所述實體簇語義向量,包括:
將處于上位關系的實體簇語義向量確定為備選語義向量;
確定備選語義向量對應的實體簇中的備選實體的數量;
在所述備選實體的數量小于或等于預設閾值的情況下,按照上下位關系連接各實體簇語義向量。
7.根據權利要求1所述的方法,其特征在于,按照上下位關系連接各實體簇語義向量,獲得知識體系后,還包括:
將所述知識體系展示給用戶。
8.一種用于構建知識體系的裝置,其特征在于,包括:
獲取模塊,被配置為獲取語料;
第一確定模塊,被配置為確定所述語料中的多個實體和各所述實體對應的實體向量;
聚類模塊,被配置為對各所述實體向量進行聚類獲得若干實體簇;
第二確定模塊,被配置為確定各所述實體簇對應的實體簇語義向量;
第三確定模塊,被配置為確定各所述實體簇語義向量之間的上下位關系;
構建模塊,被配置為按照上下位關系連接各所述實體簇語義向量,獲得知識體系。
9.一種電子設備,包括處理器和存儲有程序指令的存儲器,其特征在于,所述處理器被配置為在運行所述程序指令時,執行如權利要求1至7任一項所述的用于構建知識體系的方法。
10.一種存儲介質,存儲有程序指令,其特征在于,所述程序指令在運行時,執行如權利要求1至7任一項所述的用于構建知識體系的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210415291.5/1.html,轉載請聲明來源鉆瓜專利網。





