[發(fā)明專利]一種基于概率圖的實(shí)體聯(lián)合標(biāo)注關(guān)系抽取方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202210004530.8 | 申請(qǐng)日: | 2022-01-04 |
| 公開(公告)號(hào): | CN114298052B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設(shè)計(jì))人: | 曹建軍;皮德常;翁年鳳;胥萌;丁鯤;袁震;江春 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/216;G06F18/241;G06N3/0464;G06N3/08 |
| 代理公司: | 江蘇瑞途律師事務(wù)所 32346 | 代理人: | 計(jì)璐 |
| 地址: | 210007 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 概率 實(shí)體 聯(lián)合 標(biāo)注 關(guān)系 抽取 方法 系統(tǒng) | ||
1.一種基于概率圖的實(shí)體聯(lián)合標(biāo)注關(guān)系抽取方法,其特征在于,包括:接收待進(jìn)行實(shí)體聯(lián)合標(biāo)注關(guān)系抽取的文本;
進(jìn)行特征提取:利用預(yù)訓(xùn)練的BERT編碼器生成所述文本詞嵌入,對(duì)所述詞嵌入進(jìn)行字詞混合編碼及位置編碼,提取文本特征;
進(jìn)行實(shí)體抽取:將實(shí)體抽取任務(wù)轉(zhuǎn)為序列標(biāo)注任務(wù),將所述序列輸入第一模型中得到第一輸出特征,對(duì)所述第一輸出特征激活后得到預(yù)測(cè)序列,通過設(shè)定的閾值得到實(shí)體的開始和結(jié)束位置;根據(jù)就近原則對(duì)主體和客體進(jìn)行匹配,標(biāo)記相近的實(shí)體頭部和尾部進(jìn)行截取;其中,所述第一模型包括依次連接的第一網(wǎng)絡(luò)、第二網(wǎng)絡(luò)和第三網(wǎng)絡(luò);
所述第一網(wǎng)絡(luò)為兩層雙向長(zhǎng)短期記憶網(wǎng)絡(luò),所述第二網(wǎng)絡(luò)為一層一維卷積神經(jīng)網(wǎng)絡(luò),所述第三網(wǎng)絡(luò)為兩層全連接層;
所述將實(shí)體抽取任務(wù)轉(zhuǎn)為序列標(biāo)注任務(wù),將所述序列輸入第一模型中得到第一輸出特征的方法包括:所述序列輸入到兩層雙向長(zhǎng)短期記憶網(wǎng)絡(luò),提取到詞表征,然后進(jìn)入所述一層一維卷積神經(jīng)網(wǎng)絡(luò),然后再進(jìn)入所述兩層全連接層,得到第一輸出特征;
進(jìn)行關(guān)系分類:隨機(jī)抽取實(shí)體對(duì),并根據(jù)所述第一模型的中間特征,生成第二輸出特征,將所述第二輸出特征輸入第二模型中得到對(duì)應(yīng)分類關(guān)系;其中,所述第二模型包括依次連接的第四網(wǎng)絡(luò)、第五網(wǎng)絡(luò)和第六網(wǎng)絡(luò);
所述第四網(wǎng)絡(luò)為兩層一維卷積神經(jīng)網(wǎng)絡(luò),所述第五網(wǎng)絡(luò)為一層膨脹門卷積層,所述第六網(wǎng)絡(luò)為一層全連接層;
所述第一模型的中間特征為所述第一網(wǎng)絡(luò)提取的詞表征;
所述隨機(jī)抽取實(shí)體對(duì),并根據(jù)所述第一模型的中間特征,生成第二輸出特征的方法包括:對(duì)標(biāo)注好的序列進(jìn)行解析,得到所有候選主體和客體;然后隨機(jī)選取一個(gè)主體和客體,重用所述第一網(wǎng)絡(luò)提取的詞表征,并將選取的主體和客體對(duì)應(yīng)的詞嵌入附加到所述詞表征中,得到第一表征;最后將所述第一表征進(jìn)行最大池化操作,并拼接到第一表征中,得到第二輸出特征。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述字詞混合編碼的方法包括:輸入以字為單位的文本序列得到字向量序列,通過一個(gè)預(yù)訓(xùn)練好的Word2Vec模型來提取對(duì)應(yīng)的詞向量;
將每個(gè)詞的詞向量經(jīng)過一個(gè)矩陣變換到跟字向量一樣的維度加上該字的字向量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述位置編碼采用正弦位置編碼。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述將實(shí)體抽取任務(wù)轉(zhuǎn)為序列標(biāo)注任務(wù)包括:
解析輸入句子的標(biāo)簽,將句子中存在的多對(duì)實(shí)體關(guān)系中的主體和客體的頭部和尾部分別記錄在一個(gè)列表中;其中,主體標(biāo)記為sub,客體標(biāo)記為ob,標(biāo)注的同時(shí)判斷主體和客體的部分是否重合,如果重合則添加重合標(biāo)記overlap;
將所有句子轉(zhuǎn)化為序列,然后將實(shí)體抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù);
利用預(yù)訓(xùn)練BERT編碼器對(duì)詞進(jìn)行編碼,對(duì)編碼作最大池化并拼接到原始特征上,得到第一輸入,其作為第一網(wǎng)絡(luò)的輸入。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)第一模型進(jìn)行訓(xùn)練時(shí),將原序列和預(yù)測(cè)序列的誤差作為損失進(jìn)行模型的訓(xùn)練;
在對(duì)第二模型進(jìn)行訓(xùn)練時(shí),原始實(shí)體對(duì)之間的關(guān)系和預(yù)測(cè)關(guān)系的誤差作為損失進(jìn)行模型的訓(xùn)練。
6.一種基于概率圖的實(shí)體聯(lián)合標(biāo)注關(guān)系抽取系統(tǒng),根據(jù)權(quán)利要求1-5任一項(xiàng)所述的基于概率圖的實(shí)體聯(lián)合標(biāo)注關(guān)系抽取方法進(jìn)行實(shí)體聯(lián)合標(biāo)注關(guān)系抽取,其特征在于,包括:
數(shù)據(jù)接收單元,用于接收待進(jìn)行實(shí)體聯(lián)合標(biāo)注關(guān)系抽取的文本;
特征提取單元,用于進(jìn)行特征提取:利用預(yù)訓(xùn)練的BERT編碼器生成所述文本詞嵌入,對(duì)所述詞嵌入進(jìn)行字詞混合編碼及位置編碼,提取文本特征;
實(shí)體抽取單元,用于進(jìn)行實(shí)體抽取:將實(shí)體抽取任務(wù)轉(zhuǎn)為序列標(biāo)注任務(wù),將所述序列輸入第一模型中得到第一輸出特征,對(duì)所述第一輸出特征激活后得到預(yù)測(cè)序列,通過設(shè)定的閾值得到實(shí)體的開始和結(jié)束位置;根據(jù)就近原則對(duì)主體和客體進(jìn)行匹配,標(biāo)記相近的實(shí)體頭部和尾部進(jìn)行截取;其中,所述第一模型包括依次連接的第一網(wǎng)絡(luò)、第二網(wǎng)絡(luò)和第三網(wǎng)絡(luò);
關(guān)系分類單元,進(jìn)行關(guān)系分類:隨機(jī)抽取實(shí)體對(duì),并根據(jù)所述第一模型的中間特征,生成第二輸出特征,將所述第二輸出特征輸入第二模型中得到對(duì)應(yīng)分類關(guān)系;其中,所述第二模型包括依次連接的第四網(wǎng)絡(luò)、第五網(wǎng)絡(luò)和第六網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004530.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于自主學(xué)習(xí)群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標(biāo)種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護(hù)用H型鋼構(gòu)件
- 用于云環(huán)境的語義元聯(lián)合代理





