[發(fā)明專利]一種融入約束信息的遠(yuǎn)程監(jiān)督關(guān)系抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110366544.X | 申請(qǐng)日: | 2021-04-06 |
| 公開(公告)號(hào): | CN112860903B | 公開(公告)日: | 2022-02-22 |
| 發(fā)明(設(shè)計(jì))人: | 劉揚(yáng);梁天銘;劉曉燕;劉國軍;王春宇;郭茂祖 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36;G06F40/205;G06F40/30 |
| 代理公司: | 哈爾濱華夏松花江知識(shí)產(chǎn)權(quán)代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融入 約束 信息 遠(yuǎn)程 監(jiān)督 關(guān)系 抽取 方法 | ||
一種融入約束信息的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,涉及自然語言處理技術(shù)領(lǐng)域,為了解決基于遠(yuǎn)程監(jiān)督的關(guān)系抽取中所出現(xiàn)的標(biāo)簽噪聲問題和長(zhǎng)尾關(guān)系問題,采用本申請(qǐng)?zhí)岢龅年P(guān)系抽取方法,可以通過引入實(shí)體類型信息和關(guān)系約束信息來豐富關(guān)系抽取模型的背景知識(shí),從而有效增強(qiáng)關(guān)系抽取模型在噪聲環(huán)境下的魯棒性和準(zhǔn)確率;另外還可以利用GCN的鄰居聚合機(jī)制,促進(jìn)信息在數(shù)據(jù)豐富的頭部關(guān)系和數(shù)據(jù)匱乏的長(zhǎng)尾關(guān)系之間的傳播,從而增強(qiáng)長(zhǎng)尾關(guān)系的表示學(xué)習(xí)。本申請(qǐng)能夠充分利用約束圖中的信息,同時(shí)解決遠(yuǎn)程監(jiān)督關(guān)系抽取中的標(biāo)簽噪聲問題和長(zhǎng)尾關(guān)系問題。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體為一種融入約束信息的遠(yuǎn)程監(jiān)督關(guān)系抽取方法。
背景技術(shù)
關(guān)系抽取是信息抽取的主要任務(wù)之一,它在命名實(shí)體識(shí)別的基礎(chǔ)上,致力于從非結(jié)構(gòu)化文本中提取出兩個(gè)既定實(shí)體之間的語義關(guān)系。關(guān)系抽取通常被建模為一個(gè)多分類問題,即給定一個(gè)實(shí)體對(duì)以及包含這個(gè)實(shí)體對(duì)的句子,判別這個(gè)實(shí)體對(duì)屬于哪一種預(yù)定義關(guān)系類別。
許多研究致力于使用有監(jiān)督學(xué)習(xí)來完成關(guān)系抽取任務(wù),而且已經(jīng)取得了一定的進(jìn)展。然而,有監(jiān)督的關(guān)系抽取方法依賴于大量的有標(biāo)注數(shù)據(jù),而數(shù)據(jù)的標(biāo)注需要耗費(fèi)極大的時(shí)間和人力成本。為了解決這個(gè)問題,“遠(yuǎn)程監(jiān)督”假設(shè)被提出:如果一個(gè)實(shí)體對(duì)在現(xiàn)有的知識(shí)庫中存在某個(gè)關(guān)系,那么所有提及了這個(gè)實(shí)體對(duì)的句子都在以不同的程度來表達(dá)這個(gè)關(guān)系。根據(jù)這個(gè)假設(shè),可以通過對(duì)齊文本和知識(shí)庫中的實(shí)體對(duì)來完成樣本的自動(dòng)標(biāo)注,從而迅速擴(kuò)大有標(biāo)注數(shù)據(jù)的規(guī)模。然而,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取通常面臨著兩個(gè)主要的問題。
其一是標(biāo)簽噪聲問題,如果實(shí)體對(duì)在現(xiàn)有知識(shí)庫中存在某種關(guān)系,那么即使包含該實(shí)體對(duì)的句子中并沒有表達(dá)該關(guān)系,遠(yuǎn)程監(jiān)督也會(huì)將該句子標(biāo)注為該關(guān)系。
其二是長(zhǎng)尾關(guān)系問題。現(xiàn)實(shí)世界中的遠(yuǎn)程監(jiān)督數(shù)據(jù)集往往是長(zhǎng)尾的,即小部分的關(guān)系類別占據(jù)了大部分的訓(xùn)練樣本,而大部分的關(guān)系類別只有小部分的數(shù)據(jù)。即使是目前表現(xiàn)最好的關(guān)系抽取模型,仍然無法處理這些數(shù)據(jù)稀缺的長(zhǎng)尾關(guān)系。
因此,要將遠(yuǎn)程監(jiān)督關(guān)系抽取應(yīng)用于實(shí)際生產(chǎn)項(xiàng)目中,標(biāo)簽噪聲和長(zhǎng)尾關(guān)系都是迫切需要被解決的重要問題。
發(fā)明內(nèi)容
本發(fā)明的目的是:解決基于遠(yuǎn)程監(jiān)督的關(guān)系抽取中所出現(xiàn)的標(biāo)簽噪聲問題和長(zhǎng)尾關(guān)系問題,提出一種融入約束信息的遠(yuǎn)程監(jiān)督關(guān)系抽取方法。
本發(fā)明為了解決上述技術(shù)問題采取的技術(shù)方案是:
一種融入約束信息的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,包括以下步驟:
步驟一、獲取包含噪聲標(biāo)簽的文本數(shù)據(jù)集;
步驟二、設(shè)定需要抽取的關(guān)系,并根據(jù)每種關(guān)系的頭尾實(shí)體類型約束規(guī)則構(gòu)建約束圖;
步驟三、將約束圖轉(zhuǎn)換為向量形式,并采用GCN構(gòu)建約束圖中關(guān)系和實(shí)體類型的向量表示;
步驟四、根據(jù)目標(biāo)實(shí)體對(duì)將包含噪聲標(biāo)簽的文本數(shù)據(jù)集中的句子分組為不同的句子袋;
步驟五、對(duì)于每個(gè)句子袋,采用PCNN構(gòu)建句子袋中每個(gè)句子的向量表示;
步驟六、根據(jù)約束圖中關(guān)系和實(shí)體類型的向量表示和句子袋中每個(gè)句子的向量表示計(jì)算句子袋中每個(gè)句子對(duì)于關(guān)系約束的權(quán)重值;
步驟七、根據(jù)得到的權(quán)重值,以句子袋中每條句子的向量加權(quán)和作為該句子袋的向量表示;
步驟八、根據(jù)句子袋的向量表示,采取Softmax分類器進(jìn)行預(yù)測(cè),得到該句子袋屬于每種關(guān)系的概率值。
進(jìn)一步的,所述步驟一中包含噪聲標(biāo)簽的文本數(shù)據(jù)集根據(jù)遠(yuǎn)程監(jiān)督假設(shè)通過對(duì)齊知識(shí)庫與無標(biāo)注文本中的實(shí)體對(duì)得到。
進(jìn)一步的,所述步驟二中構(gòu)建約束圖的具體步驟為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110366544.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種增強(qiáng)尼龍包容鋼齒輪
- 一種增強(qiáng)尼龍包容鋼齒輪
- 融入式市場(chǎng)系統(tǒng)和方法
- 煤矸石淋濾液消融入滲土柱模擬系統(tǒng)及特征參數(shù)測(cè)定方法
- 煤矸石淋濾液消融入滲室內(nèi)土柱模擬裝置
- 將句子權(quán)重融入神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)方法
- 融入依存關(guān)系的神經(jīng)機(jī)器翻譯方法
- 基于虛擬現(xiàn)實(shí)及多模態(tài)信息的孤獨(dú)癥輔助干預(yù)系統(tǒng)及方法
- 一種基于生成對(duì)抗網(wǎng)絡(luò)的視頻廣告融入系統(tǒng)與方法
- 基于融入空間信息的加權(quán)伽馬混合模型的SAR影像分割方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 用于提供遠(yuǎn)程幫助的方法和服務(wù)器
- 遠(yuǎn)程登錄會(huì)話維護(hù)方法、遠(yuǎn)程登錄代理和計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)
- 汽車遠(yuǎn)程控制裝置和方法
- 一種基于EMS系統(tǒng)的變電站遠(yuǎn)程監(jiān)控系統(tǒng)
- 遠(yuǎn)程控制終端、遠(yuǎn)程控制方法、遠(yuǎn)程受控終端和遠(yuǎn)程受控方法
- 對(duì)遠(yuǎn)程受控終端的受控方式進(jìn)行自定義的裝置及方法
- 一種基于互聯(lián)網(wǎng)的移動(dòng)遠(yuǎn)程醫(yī)療綜合服務(wù)系統(tǒng)
- 一種遠(yuǎn)程控制方法、裝置及存儲(chǔ)介質(zhì)
- 一種遠(yuǎn)程炒菜機(jī)、遠(yuǎn)程炒菜機(jī)系統(tǒng)及遠(yuǎn)程炒菜方法
- 一種計(jì)算機(jī)遠(yuǎn)程控制組件





