[發(fā)明專利]實體關(guān)系獲取方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010149505.X | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111428493A | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計)人: | 戚思驊;張燦 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/205;G06F16/35 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區(qū)益田路5033號*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實體 關(guān)系 獲取 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,公開了一種實體關(guān)系獲取方法、裝置、設(shè)備及存儲介質(zhì),用于提高實體詞組間實體關(guān)系預(yù)測的準(zhǔn)確性。所述方法包括:對待識別的語料文本進(jìn)行實體抽取,獲得實體詞組;使用預(yù)設(shè)向量提取模型對預(yù)置字詞塊進(jìn)行字詞向量表征及提取,得到待識別的語料文本對應(yīng)的字詞向量;使用預(yù)設(shè)向量提取模型對預(yù)先得到的實體詞組進(jìn)行字詞向量表征及提取,得到實體詞組的字詞向量;將待識別語料文本的字詞向量與實體詞組的字詞向量進(jìn)行向量融合處理,得到融合向量;使用預(yù)設(shè)特征向量提取模型對融合向量進(jìn)行特征向量提取,得到特征向量,特征向量包含實體關(guān)系;使用多類別多標(biāo)簽識別模型對特征向量進(jìn)行預(yù)測,得到對應(yīng)的所有實體關(guān)系集合。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能的語義解析技術(shù)領(lǐng)域,尤其涉及一種實體關(guān)系獲取方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
現(xiàn)有技術(shù)中信息抽取的方法有一定的缺陷,一般的做法是先抽取主語,再同時抽取賓語以及兩者的對應(yīng)關(guān)系,或者是同時抽取主語賓語以及兩者的對應(yīng)關(guān)系。然而在知識抽取中經(jīng)常會遇到同一組主語賓語對應(yīng)多種關(guān)系的情況,但是現(xiàn)有的信息抽取方法無法獲取文本語料中同一組實體詞組的多種對應(yīng)關(guān)系。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于解決現(xiàn)有的信息抽取方法無法獲取文本語料中同一組實體詞組的多種對應(yīng)關(guān)系的技術(shù)問題。
為實現(xiàn)上述目的,本發(fā)明第一方面提供了一種實體關(guān)系獲取方法,包括:
對待識別的語料文本進(jìn)行實體抽取,獲得對應(yīng)的具有實體關(guān)系的實體詞組;
使用預(yù)設(shè)分詞算法對所述待識別的語料文本進(jìn)行分詞處理,獲取對應(yīng)的預(yù)置字詞塊;
使用預(yù)設(shè)向量提取模型對預(yù)置字詞塊進(jìn)行字詞向量表征及提取,得到所述待識別的語料文本對應(yīng)的字詞向量;
使用所述預(yù)設(shè)向量提取模型對預(yù)先得到的實體詞組進(jìn)行字詞向量表征及提取,得到所述實體詞組的字詞向量;
將所述待識別語料文本的字詞向量與所述實體詞組的字詞向量進(jìn)行向量融合處理,得到對應(yīng)的融合向量,所述向量融合處理包括采用向量拼接處理、向量平均化處理、向量池化處理、向量加權(quán)和處理中至少一種處理方式、或至少兩種處理方式的組合處理方式;
使用預(yù)設(shè)特征向量提取模型對所述融合向量進(jìn)行特征向量提取,得到對應(yīng)的特征向量,所述特征向量包含實體關(guān)系;
使用預(yù)設(shè)的多類別多標(biāo)簽識別模型對所述特征向量進(jìn)行預(yù)測,得到所述實體詞組對應(yīng)的所有實體關(guān)系集合。
可選的,在本發(fā)明第一方面的另一種實現(xiàn)方式中,所述對待識別的語料文本進(jìn)行實體抽取,獲得對應(yīng)的具有實體關(guān)系的實體詞組,包括:
對待識別的語料文本進(jìn)行切分處理,得到對應(yīng)的預(yù)置字塊;
使用至少包含兩個標(biāo)簽類型的標(biāo)簽對所述預(yù)置字塊進(jìn)行標(biāo)簽標(biāo)記處理,得到根據(jù)標(biāo)簽類型分類的待訓(xùn)練數(shù)據(jù),所述標(biāo)簽類型代表對應(yīng)的預(yù)置字塊的實體類型,所述標(biāo)簽類型間的關(guān)系代表實體關(guān)系;
使用預(yù)設(shè)向量提取模型對所述待訓(xùn)練數(shù)據(jù)進(jìn)行向量化表征及提取,從而得到每個所述標(biāo)簽類型對應(yīng)字塊的字向量;
將每個所述標(biāo)簽類型對應(yīng)字塊的字向量,分別輸入第一長短期記憶網(wǎng)絡(luò)-條件隨機(jī)場模型、第二長短期記憶網(wǎng)絡(luò)-條件隨機(jī)場模型進(jìn)行預(yù)測處理,得到每個所述標(biāo)簽類型對應(yīng)的預(yù)測標(biāo)簽序列;
將每個所述標(biāo)簽類型對應(yīng)的預(yù)測標(biāo)簽序列進(jìn)行合并,得到合并后的預(yù)測標(biāo)簽序列;
對所述合并后的預(yù)測標(biāo)簽序列進(jìn)行去標(biāo)簽解碼處理,得到具有實體關(guān)系的實體詞組;所述去標(biāo)簽解碼處理為對所述合并后的預(yù)測標(biāo)簽序列進(jìn)行刪除標(biāo)簽處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010149505.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





