[發(fā)明專利]一種基于深度學(xué)習(xí)模型的關(guān)系抽取及知識(shí)圖譜構(gòu)建方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910707194.1 | 申請(qǐng)日: | 2019-08-01 |
| 公開(kāi)(公告)號(hào): | CN110598000B | 公開(kāi)(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 連明杰;陳運(yùn)文;昝云飛;孫偉偉;徐華偉;紀(jì)達(dá)麒 | 申請(qǐng)(專利權(quán))人: | 達(dá)而觀信息科技(上海)有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/28;G06F16/951 |
| 代理公司: | 上海智力專利商標(biāo)事務(wù)所(普通合伙) 31105 | 代理人: | 周濤 |
| 地址: | 201203 上海市浦東新區(qū)*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 模型 關(guān)系 抽取 知識(shí) 圖譜 構(gòu)建 方法 | ||
本發(fā)明公開(kāi)了一種基于深度學(xué)習(xí)模型的關(guān)系抽取及知識(shí)圖譜構(gòu)建方法,具體包括以下步驟:利用數(shù)據(jù)標(biāo)注平臺(tái)將語(yǔ)料數(shù)據(jù)處理成標(biāo)注數(shù)據(jù);將標(biāo)注數(shù)據(jù)輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試,生成關(guān)系抽取模型;將待抽取文本數(shù)據(jù)輸入關(guān)系抽取模型,提取出其實(shí)體關(guān)系對(duì);利用圖數(shù)據(jù)庫(kù),構(gòu)建出待抽取文本的知識(shí)圖譜。本發(fā)明基于BERT模型與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型及條件隨機(jī)場(chǎng)算法構(gòu)建出關(guān)系抽取模型,能夠準(zhǔn)確抽取出實(shí)體關(guān)系對(duì),且通過(guò)對(duì)抽取出的實(shí)體關(guān)系對(duì)進(jìn)行人工排查,確保了進(jìn)入圖數(shù)據(jù)庫(kù)的實(shí)體關(guān)系對(duì)的正確性。
技術(shù)領(lǐng)域
本發(fā)明涉及知識(shí)圖譜構(gòu)建技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)模型的關(guān)系抽取及知識(shí)圖譜構(gòu)建方法。
背景技術(shù)
目前,知識(shí)圖譜的構(gòu)建方法根據(jù)原始數(shù)據(jù)來(lái)源而異。原始數(shù)據(jù)來(lái)源主要分為三類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。通常,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)及非關(guān)系型數(shù)據(jù)庫(kù)中,可以通過(guò)D2R技術(shù)將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為RDF數(shù)據(jù),以完成知識(shí)圖譜的構(gòu)建。半結(jié)構(gòu)化數(shù)據(jù)指的是具有一定的數(shù)據(jù)結(jié)構(gòu)、需要進(jìn)一步分析才能獲取的數(shù)據(jù),比如百科數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù)等。對(duì)于這類數(shù)據(jù),可以定制化地分析數(shù)據(jù)結(jié)構(gòu),采用正則表達(dá)式或網(wǎng)頁(yè)的爬取分析手段,將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),從而形成知識(shí)圖譜。而對(duì)于非結(jié)構(gòu)數(shù)據(jù),因?yàn)槠鋽?shù)據(jù)的非結(jié)構(gòu)化,一般不能直接通過(guò)簡(jiǎn)單地分析轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。通常,對(duì)于非結(jié)構(gòu)化數(shù)據(jù),可以提取出其中的實(shí)體,比如人名、地名、組織結(jié)構(gòu)名、時(shí)間等,以及各個(gè)實(shí)體之間的關(guān)系,從而嘗試著形成知識(shí)圖譜。
目前知識(shí)圖譜的構(gòu)建過(guò)程一般為:對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),再進(jìn)行實(shí)體對(duì)齊,知識(shí)融合,知識(shí)推理等,構(gòu)建形成一個(gè)完整的知識(shí)圖譜。
目前針對(duì)非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建知識(shí)圖譜的理論研究雖然較多,但都沒(méi)有給出一種真正可以落地的技術(shù)手段。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種基于深度學(xué)習(xí)模型的關(guān)系抽取及知識(shí)圖譜構(gòu)建方法,用以解決上述背景技術(shù)中存在的問(wèn)題。
一種基于深度學(xué)習(xí)模型的關(guān)系抽取及知識(shí)圖譜構(gòu)建方法,具體包括以下步驟:
S1,利用數(shù)據(jù)標(biāo)注平臺(tái)將語(yǔ)料數(shù)據(jù)處理成標(biāo)注數(shù)據(jù);
S2,將標(biāo)注數(shù)據(jù)作為輸入,進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和測(cè)試,生成關(guān)系抽取模型;
S3,將待抽取文本數(shù)據(jù)輸入關(guān)系抽取模型,提取出待抽取文本的實(shí)體關(guān)系對(duì);
S4,將所述實(shí)體關(guān)系對(duì)導(dǎo)入圖數(shù)據(jù)庫(kù),構(gòu)建出待抽取文本的知識(shí)圖譜。
優(yōu)選地,步驟S1中利用數(shù)據(jù)標(biāo)注平臺(tái)將語(yǔ)料數(shù)據(jù)處理成標(biāo)注數(shù)據(jù)的具體步驟為:
S11,通過(guò)爬蟲(chóng)系統(tǒng)從互聯(lián)網(wǎng)中獲取網(wǎng)絡(luò)數(shù)據(jù);
S12,將所述網(wǎng)絡(luò)數(shù)據(jù)按句子進(jìn)行切分,形成句子語(yǔ)料集;
S13,利用數(shù)據(jù)標(biāo)注平臺(tái)對(duì)句子語(yǔ)料集中的語(yǔ)料數(shù)據(jù)進(jìn)行B,I,O標(biāo)注,形成標(biāo)注數(shù)據(jù)。
優(yōu)選地,所述網(wǎng)絡(luò)數(shù)據(jù)為爬蟲(chóng)系統(tǒng)從互聯(lián)網(wǎng)的不同來(lái)源爬取到的多個(gè)領(lǐng)域的數(shù)據(jù);
獲取到網(wǎng)絡(luò)數(shù)據(jù)后,按領(lǐng)域類別對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行人工分類。
優(yōu)選地,所述網(wǎng)絡(luò)數(shù)據(jù)為TXT文本、word文本、PDF文本中的一種或多種格式的非結(jié)構(gòu)化數(shù)據(jù)。
優(yōu)選地,所述數(shù)據(jù)標(biāo)注平臺(tái)為網(wǎng)頁(yè)形式的可視化的數(shù)據(jù)標(biāo)注平臺(tái)。
優(yōu)選地,步驟S2中生成關(guān)系抽取模型的具體步驟為:
S21,從標(biāo)注數(shù)據(jù)中獲取訓(xùn)練樣本和測(cè)試樣本;
S22,對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理,將預(yù)處理后的數(shù)據(jù)輸入BERT模型進(jìn)行預(yù)訓(xùn)練,得到初始詞向量;
S23,采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型和條件隨機(jī)場(chǎng)算法對(duì)初始詞向量進(jìn)行訓(xùn)練,直至神經(jīng)網(wǎng)絡(luò)收斂,得到初始關(guān)系抽取模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于達(dá)而觀信息科技(上海)有限公司,未經(jīng)達(dá)而觀信息科技(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910707194.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





