[發(fā)明專利]一種基于知識(shí)蒸餾的實(shí)體關(guān)系抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011279537.8 | 申請(qǐng)日: | 2020-11-16 |
| 公開(公告)號(hào): | CN112528034B | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計(jì))人: | 趙笑艷;楊敏;曲強(qiáng) | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/28;G06N3/04;G06N3/08;G06N20/10 |
| 代理公司: | 北京市誠(chéng)輝律師事務(wù)所 11430 | 代理人: | 耿慧敏 |
| 地址: | 518055 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 知識(shí) 蒸餾 實(shí)體 關(guān)系 抽取 方法 | ||
本發(fā)明公開了一種基于知識(shí)蒸餾的實(shí)體關(guān)系抽取方法。該方法包括:構(gòu)建包含實(shí)體教師模型、關(guān)系教師模型和學(xué)生模型的深度生成模型;以設(shè)定的蒸餾損失函數(shù)最小化為優(yōu)化目標(biāo)訓(xùn)練所述深度生成模型,其中,訓(xùn)練過(guò)程中,實(shí)體教師模型以句子文本信息與特權(quán)實(shí)體特征作為輸入;關(guān)系教師模型以句子文本信息和特權(quán)關(guān)系特征作為輸入,學(xué)生模型以句子文本信息作為輸入并在訓(xùn)練過(guò)程融合實(shí)體教師模型的輸出和關(guān)系教師模型輸出;利用經(jīng)訓(xùn)練的學(xué)生模型對(duì)輸入句子進(jìn)行實(shí)體關(guān)系抽取,獲得對(duì)應(yīng)的目標(biāo)序列。利用本發(fā)明,學(xué)生模型能夠充分探索實(shí)體識(shí)別和關(guān)系分類之間的顯式和必要的相互支持,進(jìn)而提升了聯(lián)合提取實(shí)體和關(guān)系的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,更具體地,涉及一種基于知識(shí)蒸餾的實(shí)體關(guān)系抽取方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。大量用戶在互聯(lián)網(wǎng)上不斷產(chǎn)生著新內(nèi)容,這些文本數(shù)據(jù)豐富多樣,如博客、社交媒體評(píng)論、文獻(xiàn)資料等。網(wǎng)絡(luò)信息正呈現(xiàn)著爆炸式增長(zhǎng)的趨勢(shì),依靠人工篩選編輯知識(shí)的方式已無(wú)法滿足處理海量文本數(shù)據(jù)的需求。現(xiàn)如今,如何有效地從海量文本數(shù)據(jù)中自動(dòng)提取結(jié)構(gòu)化信息,來(lái)提升人們篩選和獲取信息的效率并為用戶提供更好的信息服務(wù)是當(dāng)前急需解決的問題。信息抽取技術(shù)是解決這一問題的有效方案。信息抽取的目的是從文本中抽取出特定的、有價(jià)值的結(jié)構(gòu)化信息,它包括聯(lián)合實(shí)體關(guān)系抽取和事件抽取。
實(shí)體關(guān)系抽取是從文本中提取實(shí)體關(guān)系三元組的過(guò)程,是自然語(yǔ)言處理(NLP)的關(guān)鍵任務(wù),目標(biāo)是自動(dòng)地抽取文本中實(shí)體和實(shí)體間的語(yǔ)義關(guān)系,其在海量數(shù)據(jù)的篩選處理、大規(guī)模知識(shí)圖譜的自動(dòng)構(gòu)建等領(lǐng)域顯示出廣闊的應(yīng)用價(jià)值。例如,通過(guò)關(guān)系抽取技術(shù)構(gòu)建出大規(guī)模的知識(shí)庫(kù)系統(tǒng),可以將其應(yīng)用于優(yōu)化信息檢索和搜索引擎。實(shí)體關(guān)系抽取任務(wù)也可以輔助提升自然語(yǔ)言處理領(lǐng)域中的其他文本理解任務(wù),通過(guò)分析以自然語(yǔ)言形式描述的文本中的實(shí)體關(guān)系語(yǔ)義,為情感分析、自動(dòng)摘要、實(shí)體鏈接等任務(wù)提供更準(zhǔn)確的信息定位。
實(shí)體關(guān)系抽取包含兩個(gè)子任務(wù),分別是實(shí)體抽取和關(guān)系識(shí)別。現(xiàn)有方法在進(jìn)行實(shí)體關(guān)系抽取任務(wù)時(shí)僅利用單一文本輸入信息,不能充分建模句子中實(shí)體和關(guān)系等特征信息。針對(duì)這一問題,一個(gè)自然地想法是通過(guò)添加額外的實(shí)體、關(guān)系特征信息來(lái)輔助模型更好地處理實(shí)體關(guān)系三元組的聯(lián)合提取問題。但是,由于自然語(yǔ)言處理(NLP)工具缺乏有關(guān)實(shí)體和關(guān)系的背景知識(shí),自動(dòng)提取特征時(shí)會(huì)不可避免的引入錯(cuò)誤信息。另一種解決方法是通過(guò)知識(shí)庫(kù)添加輔助信息,這種方式得到的數(shù)據(jù)同樣也存在著大量噪聲難以消除。例如,知識(shí)庫(kù)中存在著(巴黎,法國(guó))這兩個(gè)實(shí)體對(duì)應(yīng)的關(guān)系位于,但是文本中同時(shí)出現(xiàn)巴黎和法國(guó)這一實(shí)體對(duì)的句子并不一定都表達(dá)的是位于的關(guān)系。因此,如何更準(zhǔn)確且有效地利用輔助特征以提升模型處理實(shí)體識(shí)別和關(guān)系提取的效果具有十分重要的現(xiàn)實(shí)意義,也越來(lái)越受到人們的關(guān)注。
常規(guī)的流水線實(shí)體關(guān)系抽取方法將實(shí)體識(shí)別和關(guān)系分類視為兩個(gè)單獨(dú)的任務(wù)。例如,首先提取文本中的字符跨度以檢測(cè)實(shí)體提及,然后預(yù)測(cè)實(shí)體之間的關(guān)系類型。然而,這些流水線方法存在著錯(cuò)誤傳播,導(dǎo)致關(guān)系分類模塊很大程度上受到實(shí)體識(shí)別模塊引入的錯(cuò)誤的影響。因此,實(shí)體關(guān)系抽取問題仍是一個(gè)挑戰(zhàn),吸引了許多研究者的關(guān)注,一些相關(guān)的研究成果也不斷被發(fā)表出來(lái)。
在一項(xiàng)研究成果中,提出了表格填充方法來(lái)減輕流水線實(shí)體關(guān)系抽取方法的局限性,將聯(lián)合提取任務(wù)形式化為一個(gè)表格,該表格由輸入句子自身的笛卡爾積計(jì)算得到,其中除表格對(duì)角線上的空白外,表格上其他空白將作為關(guān)系進(jìn)行預(yù)測(cè)。但是,表填充方法枚舉了所有可能的實(shí)體對(duì),這導(dǎo)致了沉重的計(jì)算負(fù)擔(dān)。
在另一項(xiàng)研究成果中,提出了采用序列標(biāo)記方法,通過(guò)該方法可以預(yù)測(cè)每個(gè)單詞的單個(gè)標(biāo)記,這種標(biāo)記方式能同時(shí)預(yù)測(cè)實(shí)體和關(guān)系。但是,標(biāo)記方法無(wú)法處理重疊關(guān)系,存在著無(wú)法為一個(gè)標(biāo)記分配多個(gè)標(biāo)簽的局限性。
在最新的研究成果中,提出了在解碼器中擴(kuò)展了具有復(fù)制機(jī)制的序列到序列學(xué)習(xí)模型,該模型將非結(jié)構(gòu)化文本作為輸入,并通過(guò)解碼器順序輸出實(shí)體關(guān)系三元組,這種方式一定程度上緩解了未登錄詞(OOV)問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院,未經(jīng)中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011279537.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





