[發明專利]大規模知識圖譜本體自動抽取方法、終端設備及存儲介質有效
| 申請號: | 202110380611.3 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113127645B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 洪萬福;張林娜 | 申請(專利權)人: | 廈門淵亭信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/295;G06K9/62 |
| 代理公司: | 廈門市精誠新創知識產權代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市軟*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規模 知識 圖譜 本體 自動 抽取 方法 終端設備 存儲 介質 | ||
本發明涉及大規模知識圖譜本體自動抽取方法、終端設備及存儲介質,該方法中包括:S1:從知識圖譜中獲取實體;S2:采用規則匹配算法對提取的實體進行初步分類;S3:采用命名實體識別模型對步驟S2中未分類的實體進行命名實體識別,并確認識別到的命名實體的類型;S4:針對步驟S3中命名實體識別后的剩余實體,采用聚類算法進行分類;S5:將步驟S2、S3和S4的分類結果進行合并與調整,得到最終的分類結果。本發明創新性地融合多種技術手段,有效的實現了工業界大規模知識圖譜的本體自動抽取工作,在無任何人工標注數據的情況下,仍可實現對復雜、量級大、臟數據多的知識圖譜進行實體的本體抽取。
技術領域
本發明涉及知識圖譜領域,尤其涉及一種大規模知識圖譜本體自動抽取方法、終端設備及存儲介質。
背景技術
知識圖譜(Knowledge Graph)的概念由谷歌2012年正式提出,旨在實現更智能的搜索引擎,并且于2013年以后開始在學術界和業界普及。目前,隨著智能信息服務應用的不斷發展,知識圖譜已被廣泛應用于智能搜索、智能問答、個性化推薦、情報分析、反欺詐等領域。
知識圖譜有自頂向下和自底向上兩種構建方式。所述自頂向下構建為:先定義好本體,再將實體加入到知識庫中;所述自底向上構建,則是借助一定的技術手段,從公開采集的數據中提取出實體,選擇其中置信度較高的,加入到知識庫中。目前,主流方式是采用自底向上構建的方式,這就需要在圖譜構建后進行本體的抽取構建工作。本體構建方法按照人工介入的程度,可分為手動構建、半自動構建、自動構建,但目前尚未有成熟的技術體系。
發明內容
為了解決上述問題,本發明提出了一種大規模知識圖譜本體自動抽取方法、終端設備及存儲介質。
具體方案如下:
一種大規模知識圖譜本體自動抽取方法,包括以下步驟:
S1:從知識圖譜中獲取實體;
S2:采用規則匹配算法對提取的實體進行初步分類;
S3:采用命名實體識別模型對步驟S2中未分類的實體進行命名實體識別,并確認識別到的命名實體的類型;
S4:針對步驟S3中命名實體識別后的剩余實體,采用聚類算法進行分類;
S5:將步驟S2、S3和S4的分類結果進行合并與調整,得到最終的分類結果。
進一步的,步驟S1還包括對獲取的實體進行預處理,預處理包括標點符號清洗、異常長度實體過濾和大寫字母轉換為小寫字母。
進一步的,步驟S4聚類算法采用Kmeans聚類算法。
進一步的,步驟S4采用聚類算法進行分類的具體過程如下:
S401:針對每個待分類實體,從知識圖譜中提取其屬性、標簽和關系中的一種或多種后,與實體名稱進行拼接,使用自然語言處理詞向量技術,獲取拼接后的字符串中的每個字的向量表示,將所有字的向量表示的平均值作為待分類實體的詞向量;
S402:將待分類實體的詞向量,輸入到Kmeans模型中,使用手肘法確認聚類個數k;
S403:將待分類實體的詞向量表示與聚類個數k同時輸入到Kmeans模型中,得到聚類結果。
進一步的,步驟S401中采用的自然語言處理詞向量技術為在102種語言的語料上進行訓練的bert-base-multilingual-uncased模型。
進一步的,如果最終的分類結果中某種類別的實體數量大于預設的數量閾值,則對該種類別的實體重新執行步驟S2~S5進行進一步分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門淵亭信息科技有限公司,未經廈門淵亭信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110380611.3/2.html,轉載請聲明來源鉆瓜專利網。





