[發(fā)明專利]實體關(guān)系抽取模型的訓(xùn)練方法和抽取實體關(guān)系的方法在審
| 申請?zhí)枺?/td> | 201910883330.2 | 申請日: | 2019-09-18 |
| 公開(公告)號: | CN110619053A | 公開(公告)日: | 2019-12-27 |
| 發(fā)明(設(shè)計)人: | 鐘輝強;尹存祥;方軍;劉亮;駱金昌 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 11313 北京市鑄成律師事務(wù)所 | 代理人: | 包莉莉;武晨燕 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實體關(guān)系 訓(xùn)練文本 抽取 初始模型 三元組 預(yù)測 目標(biāo)文本 人工標(biāo)注 已知數(shù)據(jù) 預(yù)測目標(biāo) 大數(shù)據(jù) 申請 匹配 | ||
本申請公開了一種實體關(guān)系抽取模型的訓(xùn)練方法和抽取實體關(guān)系的方法,涉及大數(shù)據(jù)領(lǐng)域。具體實現(xiàn)方案為:根據(jù)已知數(shù)據(jù)庫中的實體關(guān)系三元組,匹配訓(xùn)練文本,實體關(guān)系三元組中包括已知實體對和已知實體對對應(yīng)的已知關(guān)系,訓(xùn)練文本中包括已知實體對;基于初始模型預(yù)測已知實體對在訓(xùn)練文本中的關(guān)系,得到預(yù)測關(guān)系;根據(jù)多個訓(xùn)練文本對應(yīng)的已知關(guān)系和預(yù)測關(guān)系之間的差值,調(diào)整初始模型的參數(shù),得到實體關(guān)系抽取模型,實體關(guān)系抽取模型用于預(yù)測目標(biāo)實體對在目標(biāo)文本中的關(guān)系。本申請的技術(shù)方案不需要對訓(xùn)練文本中的實體關(guān)系進行人工標(biāo)注,從而可以快速抽取實體關(guān)系。
技術(shù)領(lǐng)域
本申請涉及一種數(shù)據(jù)處理領(lǐng)域,尤其涉及一種大數(shù)據(jù)領(lǐng)域。
背景技術(shù)
在知識圖譜構(gòu)建中,知識抽取是核心基礎(chǔ),而實體關(guān)系是知識抽取的重要組成部分。當(dāng)前,存在大量的自由文本,但是這些非結(jié)構(gòu)化信息雜亂無章,無法被用戶充分利用。如何從這些自由文本中抽取結(jié)構(gòu)化知識,尤其是實體關(guān)系,具有十分重要的意義。
發(fā)明內(nèi)容
本申請實施例提供一種實體關(guān)系抽取模型的訓(xùn)練方法和抽取實體關(guān)系的方法,以解決現(xiàn)有技術(shù)中的一個或多個技術(shù)問題。
第一方面,本申請實施例提供實體關(guān)系抽取模型的訓(xùn)練方法,包括:
根據(jù)已知數(shù)據(jù)庫中的實體關(guān)系三元組,匹配訓(xùn)練文本,實體關(guān)系三元組中包括已知實體對和已知實體對對應(yīng)的已知關(guān)系,訓(xùn)練文本中包括已知實體對;
基于初始模型預(yù)測已知實體對在訓(xùn)練文本中的關(guān)系,得到預(yù)測關(guān)系;
根據(jù)多個訓(xùn)練文本對應(yīng)的已知關(guān)系和預(yù)測關(guān)系之間的差值,調(diào)整初始模型的參數(shù),得到實體關(guān)系抽取模型,實體關(guān)系抽取模型用于預(yù)測目標(biāo)實體對在目標(biāo)文本中的關(guān)系。
上述技術(shù)方案通過對已知數(shù)據(jù)庫構(gòu)造實體關(guān)系三元組,進而從海量自由文本匹配對應(yīng)的訓(xùn)練文本,以訓(xùn)練實體關(guān)系抽取模型。由于實體關(guān)系三元組中的實體對和實體關(guān)系為已知的,因此不需要對訓(xùn)練文本中的實體關(guān)系進行人工標(biāo)注,可以提高訓(xùn)練訓(xùn)練效率。
在一種實施方式中,初始模型為雙向門控循環(huán)單元-注意力機制模型。
上述技術(shù)方案基于雙向門控循環(huán)單元可以學(xué)習(xí)到訓(xùn)練文本中的每個詞的上下文信息,注意力機制可以學(xué)習(xí)到與上下文相關(guān)的詞的權(quán)重,以更好的表征訓(xùn)練文本,使訓(xùn)練出的模型具有更好的表現(xiàn)。
在一種實施方式中,基于初始模型預(yù)測已知實體對在訓(xùn)練文本中的關(guān)系,包括:
從訓(xùn)練文本中確定出多個訓(xùn)練字符,多個訓(xùn)練字符中包括與已知實體對匹配的訓(xùn)練參考字符;
基于訓(xùn)練字符與訓(xùn)練參考字符的位置關(guān)系,得到訓(xùn)練字符的實體位置特征;
將各訓(xùn)練字符的字符特征和實體位置特征輸入初始模型,預(yù)測已知實體對在訓(xùn)練文本中的關(guān)系。
上述技術(shù)方案通過將訓(xùn)練文本表示為字符特征和實體位置特征,可以建立多維向量表示,以更好地表征訓(xùn)練文本。
第二方面,本申請實施例提供一種抽取實體關(guān)系的方法,包括:
基于實體關(guān)系抽取模型,預(yù)測目標(biāo)實體對在目標(biāo)文本中的關(guān)系,得到待選抽取結(jié)果,實體關(guān)系抽取模型為根據(jù)以上任一項的訓(xùn)練方法訓(xùn)練得到;
判斷待選抽取結(jié)果是否滿足預(yù)設(shè)條件;
在判斷待選抽取結(jié)果為不滿足預(yù)設(shè)條件的情況下,對目標(biāo)文本進行句法依存分析,以確定目標(biāo)實體對在目標(biāo)文本中的關(guān)系。
上述技術(shù)方案通過引入句法依存關(guān)系抽取,能有效挖掘新的關(guān)系類型,補充數(shù)據(jù)庫關(guān)系集合以外的關(guān)系,豐富關(guān)系集合。
在一種實施方式中,基于實體關(guān)系抽取模型,預(yù)測目標(biāo)實體對在目標(biāo)文本中的關(guān)系,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910883330.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 對實體關(guān)系模式進行聚類、提取的方法和設(shè)備
- 實體關(guān)系分類裝置和實體關(guān)系分類方法
- 一種實體關(guān)系的圖形構(gòu)建方法及裝置
- 一種實體關(guān)系的存儲方法及設(shè)備
- 一種基于神經(jīng)網(wǎng)絡(luò)的實體關(guān)系補全方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 實體關(guān)系的存儲方法及裝置
- 實體關(guān)系抽取模型的訓(xùn)練方法和抽取實體關(guān)系的方法
- 一種實體關(guān)系識別方法、裝置及設(shè)備
- 實體關(guān)系抽取方法、實體關(guān)系學(xué)習(xí)模型的獲取方法及設(shè)備
- 一種基于測井匹配的全波形反演初始速度模型構(gòu)建方法
- 一種土建BIM工程量模型的構(gòu)建方法
- 一種圖像渲染方法、裝置、電子設(shè)備和存儲介質(zhì)
- 模型訓(xùn)練方法、信息生成方法、裝置、電子設(shè)備和計算機可讀介質(zhì)
- 軌跡預(yù)測模型生成方法、裝置、可讀存儲介質(zhì)及電子設(shè)備
- 鎳基單晶中點缺陷對拉伸性能影響的分子模擬方法
- 一種學(xué)校土建BIM工程量模型的構(gòu)建方法及其系統(tǒng)
- 溫度測量模型的訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)
- 預(yù)訓(xùn)練模型的獲取方法、裝置以及計算機設(shè)備
- 一種基于BIM的設(shè)備基礎(chǔ)異形底板建模方法及系統(tǒng)





