[發(fā)明專利]一種基于深度學(xué)習(xí)的知識抽取方法與裝置有效
| 申請?zhí)枺?/td> | 202010563907.4 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111709243B | 公開(公告)日: | 2023-07-07 |
| 發(fā)明(設(shè)計)人: | 楊鵬;楊浩然;李文翰 | 申請(專利權(quán))人: | 南京優(yōu)慧信安科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/35;G06F16/332;G06F18/22;G06N3/0464;G06N3/045;G06N3/08 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 210012 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 知識 抽取 方法 裝置 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的知識抽取方法與裝置。首先,本發(fā)明使用BERT+CNN模型抽取百科文本中存在的多種關(guān)系,該模型改進(jìn)了CNN基本結(jié)構(gòu)并增加Attention機(jī)制,進(jìn)而提高抽取精度。接著,枚舉抽取的多種關(guān)系,根據(jù)關(guān)系類型識別文本對應(yīng)的頭實(shí)體和尾實(shí)體,并使用基于概率的實(shí)體對篩選方法篩選實(shí)體對。最后,基于文本相似度的實(shí)體消歧算法實(shí)現(xiàn)篩選實(shí)體對中實(shí)體的消岐,該算法解決實(shí)體消歧可參照信息量少的問題。本發(fā)明在減少知識抽取計算量的同時,可以準(zhǔn)確、全面地從百科文本中抽取三元組知識。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于深度學(xué)習(xí)的知識抽取方法與裝置,該方法使用深度學(xué)習(xí)技術(shù)對百科文本進(jìn)行知識抽取,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
隨著電子技術(shù)、計算機(jī)技術(shù)、互聯(lián)網(wǎng)絡(luò)技術(shù)等方面科學(xué)技術(shù)的不斷發(fā)展與進(jìn)步,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息和資源最主要途徑。百度百科、互動百科、維基百科網(wǎng)站等一些網(wǎng)絡(luò)百科項(xiàng)目,是人們歡迎、使用廣泛的參考工具書。例如,許多網(wǎng)民將維基百科視為一個重要信息來源。然而,百科文本內(nèi)容紛繁雜亂,包含大量描述性語句。用戶需要閱讀大段的描述性語句才能獲取自己想要的信息。知識抽取技術(shù)可以屏蔽原始數(shù)據(jù)的繁瑣細(xì)節(jié),從原始數(shù)據(jù)中提煉出簡潔的知識。使用知識抽取技術(shù)從百科文本中抽取知識,有助于用戶快速理解文本內(nèi)容。
當(dāng)前知識抽取主流方法分為實(shí)體識別、關(guān)系抽取和實(shí)體消歧三個步驟。實(shí)體識別,又稱命名實(shí)體識別(Named?Entity?Recognition),目標(biāo)是抽取出文本中存在的多個實(shí)體,主流的方法包括基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。實(shí)體識別后,窮舉所有實(shí)體對,使用關(guān)系抽取技術(shù)抽取實(shí)體可能存在的關(guān)系。實(shí)體消歧可以在一定的上下文語境中,確定給定命名實(shí)體指稱真正指向的實(shí)體概念。當(dāng)前的知識抽取技術(shù)應(yīng)用到百科文本中還存在以下問題:首先,百科文本通常一句話包含有多個實(shí)體。如果采用先實(shí)體識別再關(guān)系抽取的順序,窮舉多個實(shí)體對會大大增加知識抽取的計算量;其次,百科文本會出現(xiàn)包含多種關(guān)系和多個三元組的情況,從而導(dǎo)致準(zhǔn)確率過低;最后,單個文本中抽取的實(shí)體相關(guān)描述信息量很少,難以利用少量的信息實(shí)現(xiàn)實(shí)體消歧。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明提出了一種基于深度學(xué)習(xí)的知識抽取方法與裝置,在減少知識抽取計算量的同時,可以準(zhǔn)確、全面地從百科文本中抽取三元組知識。
技術(shù)方案:為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明所述的一種基于深度學(xué)習(xí)的知識抽取方法,首先使用BERT+CNN模型抽取百科文本中存在的多種關(guān)系;然后枚舉存在的關(guān)系,根據(jù)關(guān)系識別文本中對應(yīng)的頭尾實(shí)體節(jié)點(diǎn),并基于概率篩選實(shí)體對;最后根據(jù)相似度計算對識別出的實(shí)體進(jìn)行實(shí)體消歧。該方法主要包括四個步驟,具體如下:
(1)使用BERT+CNN模型抽取百科文本中存在的實(shí)體間的關(guān)系,所述BERT+CNN模型通過BERT模型生成句子嵌入向量,并通過CNN模型抽取語義特征,CNN模型中增加Attention機(jī)制以加強(qiáng)特征抽取能力;
(2)對步驟(1)中抽取的每個關(guān)系,將其余對應(yīng)的百科文本同時輸入BERT模型,識別每個關(guān)系對應(yīng)的頭尾實(shí)體節(jié)點(diǎn),針對每個文本序列,輸出頭實(shí)體的起始概率和結(jié)束概率,以及,尾實(shí)體的起始概率和結(jié)束概率;
(3)根據(jù)步驟(2)輸出的概率,去除重復(fù)實(shí)體,并根據(jù)就近原則篩選實(shí)體對;
(4)計算篩選的實(shí)體與百科中的實(shí)體之間的相似度,并根據(jù)相似度找到百科中對應(yīng)的實(shí)體,完成實(shí)體消歧過程。
作為優(yōu)選,所述步驟(1)中在CNN模型卷積核結(jié)構(gòu)基礎(chǔ)上加入殘差,設(shè)第l層卷積層輸入序列為其中n為序列長度,為長度d的向量,卷積寬度為k,卷積核參數(shù)為W∈R2d×kd,bw∈R2d,卷積核計算方式如下:
其中張量大小為R2d,函數(shù)υ將該張量分為兩部分,其中一個張量通過一個Sigmoid激活函數(shù),再與另一個張量點(diǎn)積。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京優(yōu)慧信安科技有限公司,未經(jīng)南京優(yōu)慧信安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010563907.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





