[發(fā)明專利]一種基于多標簽分類的實體關(guān)系聯(lián)合抽取模型的建立方法有效
| 申請?zhí)枺?/td> | 202010937094.0 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN112069328B | 公開(公告)日: | 2022-06-24 |
| 發(fā)明(設(shè)計)人: | 李愛平;劉運璇;賈焰;江榮;周斌;涂宏魁;王曄 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06F40/284;G06N3/04 |
| 代理公司: | 西安研創(chuàng)天下知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 410073 湖南省長沙市開*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 標簽 分類 實體 關(guān)系 聯(lián)合 抽取 模型 建立 方法 | ||
1.一種基于多標簽分類的實體關(guān)系聯(lián)合抽取模型的建立方法,其特征在于:包括:
S1.搭建基于Encoder-Decoder的模型框架;
S2.設(shè)計基于多標簽分類的實體關(guān)系聯(lián)合抽取模型的標注方式:根據(jù)句子S中的實體關(guān)系的數(shù)量,為句子S標注相同數(shù)量的標簽序列,且在每個序列中只標注一對實體及實體間的關(guān)系;
S3.設(shè)計基于DCNN和Bi-LSTM的編碼器,利用DCNN和Bi-LSTM的編碼器將3層空洞卷積輸出的語義單元表示,與Bi-LSTM輸出的單詞語義信息相連接,共同作為編碼器的輸出,實現(xiàn)將不同長度的句子編碼為固定長度的向量;
S4.設(shè)計基于CNN鏈和Attention的解碼器,實現(xiàn)利用CNN鏈和Attention將得到的語義信息生成多個實體關(guān)系三元組,進行實體關(guān)系的抽取;
S5.設(shè)計基于Encoder-Decoder模型框架的三元組正確性評估模塊。
2.根據(jù)權(quán)利要求1所述的一種基于多標簽分類的實體關(guān)系聯(lián)合抽取模型的建立方法,其特征在于:在步驟S1所述的搭建基于Encoder-Decoder的模型框架的過程中,包括搭建詞向量預(yù)訓(xùn)練模塊,在詞向量預(yù)訓(xùn)練模塊中采用word2vec訓(xùn)練得到的詞向量對句子中的詞匯進行表示。
3.根據(jù)權(quán)利要求1所述的一種基于多標簽分類的實體關(guān)系聯(lián)合抽取模型的建立方法,其特征在于:步驟S3所述的設(shè)計基于Bi-LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)模型的過程包括:
S301.設(shè)計基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)模型
(1)設(shè)計遺忘門:遺忘門接受的信息是上一個記憶單元的信息h(t-1]和當前的輸入信息x(t),輸出信息為0到1之間的數(shù)值,該數(shù)值決定了細胞狀態(tài)C(t-1)保留下來的信息,其中數(shù)值0表示“完全舍棄”,數(shù)值1表示“完全保留”,遺忘門的公式表示為:
f(t)=sigmoid(Wf·[h(t-1],x(t)]+bf) (1)
其中:f(t)代表遺忘門當前時刻t的輸出,sigmoid為激活函數(shù),Wf代表遺忘門的權(quán)重矩陣,bf代表遺忘門的偏置項;
(2)設(shè)計輸入門:輸入門是對當前時刻t輸入的信息x(t)進行選擇性的記憶,其主要通過兩個步驟實現(xiàn),首先利用一個sigmoid層確定更新哪些內(nèi)容,一個tanh層確定更新內(nèi)容的備選項,之后將兩個部分相結(jié)合實現(xiàn)對細胞狀態(tài)的更新,計算公式表示為:
i(t)=sigmoid(Wi·[h(t-1],x(t)]+bi) (2)
其中:公式(2)中i(t)代表輸入門當前時刻t的輸出,sigmoid為激活函數(shù),Wi代表權(quán)重矩陣,h(t-1]代表上一個記憶單元的信息,bf代表偏置項;公式(3)中的代表當前時刻t輸入的單元狀態(tài),tanh為激活函數(shù),WC代表權(quán)重矩陣,h(t-1]代表上一個記憶單元的信息,bC代表偏置項;公式(4)中的C(t)代表當前時刻t輸出的單元狀態(tài),f(t)是公式(1)中遺忘門輸出,C(t-1)代表上一時刻t-1單元的狀態(tài),i(t)和來自公式(2)和公式(3);
(3)設(shè)計輸出門:首先通過一個sigmoid層來確定輸入信息中哪些部分將會加入到輸出中,之后用一個tanh層對細胞狀態(tài)信息進行處理,最后將兩個部分的內(nèi)容相乘,得到最后的輸出部分,計算公式表示為:
o(t)=sigmoid(Wo·[h(t-1],x(t)]+bo) (5)
h(t)=o(t)·tanh(C(t)) (6)
其中:o(t)代表輸出門當前時刻t的輸出,sigmoid為激活函數(shù),Wo代表權(quán)重矩陣,h(t-1)代表上一個記憶單元的信息,x(t)代表當前的輸入信息,bo代表偏置項;h(t)代表輸出門當前時刻t的輸出,代表當前時刻t輸出的單元狀態(tài);
S302.在步驟S301的基礎(chǔ)上設(shè)計基于Bi-LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)模型:
(1)對于一個句子中的單詞w(t),前向LSTM根據(jù)上文單詞w(1)到w(t),將w(t)編碼成后向LSTM根據(jù)下文單詞w(n)到w(t),將w(t)編碼成與的計算過程及單詞w(t)的最終表示h(t)表示為:
其中:代表上一個記憶單元的信息,C(t-1)代表上一時刻t-1單元的狀態(tài)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010937094.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種碳素纖維機器人手臂叉的表面處理方法
- 下一篇:一種用于果園的地下灌溉管





