[發(fā)明專利]關(guān)系抽取方法、裝置、設(shè)備及可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210228412.5 | 申請日: | 2022-03-10 |
| 公開(公告)號: | CN114328978B | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計)人: | 毛震東;張勇東;付藝碩;高杰;徐本峰 | 申請(專利權(quán))人: | 合肥綜合性國家科學(xué)中心人工智能研究院(安徽省人工智能實驗室) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 深圳市世紀(jì)恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 高川 |
| 地址: | 230000 安徽省合肥市望江西路5089號*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 關(guān)系 抽取 方法 裝置 設(shè)備 可讀 存儲 介質(zhì) | ||
本申請公開了一種關(guān)系抽取方法、裝置、設(shè)備及可讀存儲介質(zhì),該方法包括步驟:接收用戶輸入的自然語言數(shù)據(jù);輸入所述自然語言數(shù)據(jù)到第一語言模型中,得到實體關(guān)系數(shù)據(jù),其中,所述實體關(guān)系數(shù)據(jù)用于表征所述自然語言數(shù)據(jù)中的實體關(guān)系,所述第一語言模型是先以實體關(guān)系匹配ERM和掩碼語言模型MLM作為預(yù)訓(xùn)練任務(wù)對預(yù)定的第二語言模型進行訓(xùn)練得到第三語言模型,再利用預(yù)測關(guān)系公式對所述第三語言模型進行訓(xùn)練后得到的。本申請避免了使用NSP作為語言模型的預(yù)訓(xùn)練任務(wù),導(dǎo)致語言模型無法從NSP中獲得對關(guān)系抽取任務(wù)的性能提升,提高了語言模型的數(shù)據(jù)處理能力。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種關(guān)系抽取方法、裝置、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)、云計算等技術(shù)飛速發(fā)展,當(dāng)今信息數(shù)據(jù)呈現(xiàn)出高速增長、規(guī)模巨大的特點,人類產(chǎn)生和可獲取的信息都以指數(shù)級速率增長。
基于此,關(guān)系抽取技術(shù)應(yīng)運而生,現(xiàn)有的關(guān)系抽取技術(shù)大多使用NSP(NextSentence Prediction,預(yù)測下一句)作為預(yù)訓(xùn)練任務(wù)。
在實現(xiàn)層面上,NSP與下游關(guān)系抽取任務(wù)并不適配,導(dǎo)致模型無法從NSP中獲得對關(guān)系抽取任務(wù)的性能提升。
發(fā)明內(nèi)容
本申請的主要目的在于提供一種關(guān)系抽取方法、裝置、設(shè)備及可讀存儲介質(zhì),本申請通過以ERM(Entity Relation Matching,實體關(guān)系匹配)作為預(yù)訓(xùn)練任務(wù)對語言模型進行訓(xùn)練,旨在解決現(xiàn)有的如何更好的與下游關(guān)系抽取任務(wù)適配,以提高語言模型的關(guān)系抽取能力的技術(shù)問題。
為實現(xiàn)上述目的,本申請?zhí)峁┮环N關(guān)系抽取方法,所述方法包括:
接收用戶輸入的自然語言數(shù)據(jù);
輸入所述自然語言數(shù)據(jù)到第一語言模型中,得到實體關(guān)系數(shù)據(jù),其中,所述實體關(guān)系數(shù)據(jù)用于表征所述自然語言數(shù)據(jù)中的實體關(guān)系,所述第一語言模型是先以實體關(guān)系匹配ERM和掩碼語言模型MLM(Masked Language Mode,掩碼語言模型)作為預(yù)訓(xùn)練任務(wù)對預(yù)定的第二語言模型進行訓(xùn)練得到第三語言模型,再利用預(yù)測關(guān)系公式對所述第三語言模型進行訓(xùn)練后得到的。
示例性地,所述接收用戶輸入的自然語言數(shù)據(jù)之前,包括:
獲取ERM預(yù)訓(xùn)練樣本、ERM預(yù)訓(xùn)練損失函數(shù)和預(yù)測關(guān)系公式;
基于所述ERM預(yù)訓(xùn)練樣本、所述ERM預(yù)訓(xùn)練損失函數(shù),對所述第二語言模型進行訓(xùn)練,得到所述第三語言模型;
基于所述預(yù)測關(guān)系公式,對所述第三語言模型進行訓(xùn)練,得到所述第一語言模型。
示例性地,所述獲取ERM預(yù)訓(xùn)練樣本,包括:
獲取預(yù)訓(xùn)練數(shù)據(jù);
分割所述預(yù)訓(xùn)練數(shù)據(jù),得到第一樣本;
抽取出所述第一樣本中包含的實體對,根據(jù)所述實體對之間的關(guān)系確定關(guān)系標(biāo)簽,其中,所述實體對包括第一實體和第二實體;
在所述第一實體兩側(cè)分別插入第一特殊標(biāo)簽和第二特殊標(biāo)簽,所述第二實體兩側(cè)分別插入第三特殊標(biāo)簽和第四特殊標(biāo)簽,得到第二樣本,其中,所述第一特殊標(biāo)簽、所述第二特殊標(biāo)簽、所述第三特殊標(biāo)簽和所述第四特殊標(biāo)簽用于對所述實體對進行標(biāo)記;
按[CLS]所述第二樣本[SEP]所述關(guān)系標(biāo)簽[SEP]進行組合,得到所述ERM預(yù)訓(xùn)練樣本,其中,所述[CLS]放在首位用于分類,所述[SEP]放在中間用于分隔。
示例性地,所述獲取ERM預(yù)訓(xùn)練損失函數(shù),包括:
獲取樣本向量,其中,所述樣本向量是對所述ERM預(yù)訓(xùn)練樣本中的一部分進行編碼后得到的;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥綜合性國家科學(xué)中心人工智能研究院(安徽省人工智能實驗室),未經(jīng)合肥綜合性國家科學(xué)中心人工智能研究院(安徽省人工智能實驗室)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210228412.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





