[發(fā)明專利]大規(guī)模知識圖譜本體自動抽取方法、終端設備及存儲介質有效
| 申請?zhí)枺?/td> | 202110380611.3 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113127645B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設計)人: | 洪萬福;張林娜 | 申請(專利權)人: | 廈門淵亭信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/295;G06K9/62 |
| 代理公司: | 廈門市精誠新創(chuàng)知識產權代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市軟*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規(guī)模 知識 圖譜 本體 自動 抽取 方法 終端設備 存儲 介質 | ||
1.一種大規(guī)模知識圖譜本體自動抽取方法,其特征在于,包括以下步驟:
S1:從知識圖譜中獲取實體;
S2:采用規(guī)則匹配算法對提取的實體進行初步分類;
S3:采用命名實體識別模型對步驟S2中未分類的實體進行命名實體識別,并確認識別到的命名實體的類型;所述類型包括:人名、地名或機構名;
S4:針對步驟S3中命名實體識別后的剩余實體,采用聚類算法進行分類;聚類算法采用Kmeans聚類算法;采用聚類算法進行分類的具體過程如下:
S401:針對每個待分類實體,從知識圖譜中提取其屬性、標簽和關系中的一種或多種后,與實體名稱進行拼接,使用自然語言處理詞向量技術,獲取拼接后的字符串中的每個字的向量表示,將所有字的向量表示的平均值作為待分類實體的詞向量;
S402:將待分類實體的詞向量,輸入到Kmeans模型中,使用手肘法確認聚類個數k;
S403:將待分類實體的詞向量表示與聚類個數k同時輸入到Kmeans模型中,得到聚類結果;
S5:將步驟S2、S3和S4的分類結果進行合并與調整,得到最終的分類結果。
2.根據權利要求1所述的大規(guī)模知識圖譜本體自動抽取方法,其特征在于:步驟S1還包括對獲取的實體進行預處理,預處理包括標點符號清洗、異常長度實體過濾和大寫字母轉換為小寫字母。
3.根據權利要求1所述的大規(guī)模知識圖譜本體自動抽取方法,其特征在于:步驟S401中采用的自然語言處理詞向量技術為在102種語言的語料上進行訓練的bert-base-multilingual-uncased 模型。
4.根據權利要求1所述的大規(guī)模知識圖譜本體自動抽取方法,其特征在于:如果最終的分類結果中某種類別的實體數量大于預設的數量閾值,則對該種類別的實體重新執(zhí)行步驟S2~S5進行進一步分類。
5.一種大規(guī)模知識圖譜本體自動抽取終端設備,其特征在于:包括處理器、存儲器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1~4中任一所述方法的步驟。
6.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于:所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1~4中任一所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門淵亭信息科技有限公司,未經廈門淵亭信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110380611.3/1.html,轉載請聲明來源鉆瓜專利網。





