[發(fā)明專利]基于實體識別模型構(gòu)建知識圖譜的方法、終端及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011034777.1 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112182243A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計)人: | 曠雄;張旭;鄭越;曾偉 | 申請(專利權(quán))人: | 中國平安財產(chǎn)保險股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06N3/04;G06N3/08;G06F40/295;G06F40/289 |
| 代理公司: | 深圳市力道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507 | 代理人: | 賀小旺 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 實體 識別 模型 構(gòu)建 知識 圖譜 方法 終端 存儲 介質(zhì) | ||
1.基于實體識別模型構(gòu)建知識圖譜的方法,其特征在于,所述方法包括:
獲取多個行業(yè)領(lǐng)域的資源數(shù)據(jù),所述資源數(shù)據(jù)包括第一結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息;
將所述非結(jié)構(gòu)化信息輸入至所述實體識別模型中,以識別出所述非結(jié)構(gòu)化信息中的實體,所述實體識別模型是根據(jù)語料庫與若干實體識別標簽訓練得到的;
根據(jù)所述非結(jié)構(gòu)化信息中的實體確定第二結(jié)構(gòu)化信息;
根據(jù)所述第一結(jié)構(gòu)化信息與所述第二結(jié)構(gòu)化信息構(gòu)建若干子圖譜;
基于實體對齊的策略將所述若干子圖譜進行融合,得到所述知識圖譜。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述實體識別模型包括Bert模型、IDCNN模型、BiLSTM模型以及CRF模型;所述將所述非結(jié)構(gòu)化信息輸入至所述實體識別模型中,以識別出所述非結(jié)構(gòu)化信息中的實體,包括:
根據(jù)所述非結(jié)構(gòu)化信息確定詞組序列;
將所述詞組序列輸入至所述Bert模型中,得到字向量序列;
將所述字向量序列分別輸入至所述IDCNN模型和所述BiLSTM模型中,得到對應(yīng)所述IDCNN模型的第一輸出矩陣以及對應(yīng)所述BiLSTM模型的第二輸出矩陣,所述第一輸出矩陣與所述第二輸出矩陣均表示所述字向量序列中各字向量對應(yīng)各所述實體識別標簽的分值;
將所述第一輸出矩陣與所述第二輸出矩陣進行數(shù)據(jù)融合,得到融合矩陣;
將所述融合矩陣輸入至所述CRF模型中,得到對應(yīng)所述字向量序列的真實標簽序列;
根據(jù)所述字向量序列以及所述真實標簽序列,確定所述非結(jié)構(gòu)化信息中的實體。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述非結(jié)構(gòu)化信息確定詞組序列,包括:
將所述非結(jié)構(gòu)化信息進行分詞處理以及數(shù)據(jù)清洗,得到詞組序列。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述詞組序列輸入至所述Bert模型中,得到字向量序列,包括:
將所述詞組序列進行編碼,得到對應(yīng)的編碼信息;
將所述編碼信息輸入至所述Bert模型中,得到字向量序列。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述第一輸出矩陣與所述第二輸出矩陣進行數(shù)據(jù)融合,得到融合矩陣,包括:
根據(jù)對應(yīng)所述IDCNN模型的第一權(quán)重與對應(yīng)所述BiLSTM模型的第二權(quán)重,將第一輸出矩陣以及第二輸出矩陣進行數(shù)據(jù)融合,得到融合矩陣。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述融合矩陣輸入至所述CRF模型中,得到對應(yīng)所述字向量序列的真實標簽序列,包括:
將所述融合矩陣輸入至所述CRF模型中,得到所述字向量序列中各字向量對應(yīng)各所述實體識別標簽的概率值;
為所述字向量序列中各字向量選擇概率值最大的實體識別標簽作為真實標簽,以得到對應(yīng)所述字向量序列的真實標簽序列。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述非結(jié)構(gòu)化信息中的實體確定第二結(jié)構(gòu)化信息,包括:
為所述非結(jié)構(gòu)化信息中的實體建立連接關(guān)系或?qū)傩躁P(guān)系,得到第二結(jié)構(gòu)化信息。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在構(gòu)建出所述知識圖譜之后,所述方法還包括:
根據(jù)業(yè)務(wù)對象的標識信息,從所述知識圖譜中獲取對應(yīng)的業(yè)務(wù)知識。
9.一種計算機終端,其特征在于,包括處理器與存儲器;
所述存儲器,用于存儲計算機程序;
所述處理器,用于執(zhí)行所述計算機程序并在執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至8中任一項所述的基于實體識別模型構(gòu)建知識圖譜的方法。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至8中任一項所述的基于實體識別模型構(gòu)建知識圖譜的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安財產(chǎn)保險股份有限公司,未經(jīng)中國平安財產(chǎn)保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011034777.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:磁性液體密封裝置
- 下一篇:一種敏感文本識別的系統(tǒng)和方法





