[發(fā)明專利]一種文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011135229.8 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112307130B | 公開(公告)日: | 2022-07-05 |
| 發(fā)明(設(shè)計)人: | 劉知遠(yuǎn);孫茂松;肖朝軍;姚遠(yuǎn);謝若冰;韓旭;林芬;林樂宇 | 申請(專利權(quán))人: | 清華大學(xué);騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/215;G06F40/284;G06N3/08 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 張睿 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 遠(yuǎn)程 監(jiān)督 關(guān)系 抽取 方法 系統(tǒng) | ||
本發(fā)明實施例提供一種文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取方法及系統(tǒng),該方法包括:獲取遠(yuǎn)程監(jiān)督數(shù)據(jù);基于訓(xùn)練好的預(yù)降噪模型,對所述遠(yuǎn)程監(jiān)督數(shù)據(jù)進行降噪處理,得到目標(biāo)遠(yuǎn)程監(jiān)督數(shù)據(jù),所述訓(xùn)練好的預(yù)降噪模型是由標(biāo)注為正樣例的樣本遠(yuǎn)程監(jiān)督數(shù)據(jù)和標(biāo)注為負(fù)樣例的樣本遠(yuǎn)程監(jiān)督數(shù)據(jù)訓(xùn)練得到的;將所述目標(biāo)遠(yuǎn)程監(jiān)督數(shù)據(jù)輸入到訓(xùn)練好的文本編碼器模型中,得到文檔級關(guān)系抽取結(jié)果,所述訓(xùn)練好的文本編碼器模型是由降噪后的樣本文檔級遠(yuǎn)程監(jiān)督數(shù)據(jù)訓(xùn)練得到的。本發(fā)明實施例通過預(yù)訓(xùn)練方式對遠(yuǎn)程監(jiān)督數(shù)據(jù)進行降噪,能夠有效地濾除遠(yuǎn)程監(jiān)督數(shù)據(jù)中的噪音,并利用大規(guī)模的降噪后數(shù)據(jù)對模型進行預(yù)訓(xùn)練,從而實現(xiàn)文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取,提升文檔級關(guān)系抽取效果。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取方法及系統(tǒng)。
背景技術(shù)
關(guān)系提取任務(wù)旨在從文本中識別實體之間的關(guān)系事實,該任務(wù)是實現(xiàn)知識圖譜自動構(gòu)建的關(guān)鍵所在。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)關(guān)系抽取模型已經(jīng)在句子級關(guān)系抽取任務(wù)中得到了驗證,然而,訓(xùn)練一個高質(zhì)量的關(guān)系抽取模型,需要大量的人工標(biāo)注數(shù)據(jù)集,并且數(shù)據(jù)集的構(gòu)建同樣也需要耗費大量的時間與精力。為了解決這個問題,遠(yuǎn)程監(jiān)督機制被提出,該機制通過對齊知識圖譜與文本中的實體來實現(xiàn)數(shù)據(jù)的自動標(biāo)注,從而為關(guān)系抽取任務(wù)提供了非常大規(guī)模的數(shù)據(jù),可以使得模型訓(xùn)練更加充分。
現(xiàn)有的句子級關(guān)系抽取方法,側(cè)重于抽取一個句子內(nèi)部的實體之間的關(guān)系。然而,在實際表述中,存在著非常多的關(guān)系事實需要通過綜合多個句子的信息來實現(xiàn)抽取。正是因為大量存在的這種句子間的關(guān)系,在實際應(yīng)用中,句子級關(guān)系抽取的通用性和覆蓋面受到了極大的限制,數(shù)據(jù)表明,至少有40.7%的關(guān)系事實需要綜合多個句子的信息推斷出來。因此,目前提出許多文檔級關(guān)系抽取方法,來實現(xiàn)句間和句內(nèi)關(guān)系的抽取。但是,現(xiàn)有的大多數(shù)文檔級關(guān)系抽取模型嚴(yán)重依賴高質(zhì)量的人工標(biāo)注的訓(xùn)練數(shù)據(jù),耗時耗力。并且,將句子級遠(yuǎn)程監(jiān)督機制擴展到文檔級是極具挑戰(zhàn)性的,進行文檔級遠(yuǎn)程監(jiān)督機制的挑戰(zhàn)主要來自于:1、遠(yuǎn)程監(jiān)督將引入大量的錯誤標(biāo)注。統(tǒng)計顯示,文檔級遠(yuǎn)程監(jiān)督產(chǎn)生的61.8%的句間關(guān)系實例實際上是錯誤標(biāo)注樣例;2、從長文檔中捕捉有用的關(guān)系信息是具有挑戰(zhàn)性的,因為文檔中的大部分內(nèi)容可能與給定的實體和關(guān)系無關(guān)。雖然早現(xiàn)有句子級關(guān)系抽取中,已經(jīng)有一些工作致力于通過聯(lián)合考慮多個句子來對遠(yuǎn)程監(jiān)督語料進行降噪,然而,這些降噪方法不能直接適應(yīng)文檔級關(guān)系抽取。
因此,現(xiàn)在亟需一種文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取方法及系統(tǒng)來解決上述問題。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明實施例提供一種文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取方法及系統(tǒng)。
第一方面,本發(fā)明實施例提供了一種文檔級遠(yuǎn)程監(jiān)督關(guān)系抽取方法,包括:
獲取遠(yuǎn)程監(jiān)督數(shù)據(jù);
基于訓(xùn)練好的預(yù)降噪模型,對所述遠(yuǎn)程監(jiān)督數(shù)據(jù)進行降噪處理,得到目標(biāo)遠(yuǎn)程監(jiān)督數(shù)據(jù),所述訓(xùn)練好的預(yù)降噪模型是由標(biāo)注為正樣例的樣本遠(yuǎn)程監(jiān)督數(shù)據(jù)和標(biāo)注為負(fù)樣例的樣本遠(yuǎn)程監(jiān)督數(shù)據(jù)訓(xùn)練得到的;
將所述目標(biāo)遠(yuǎn)程監(jiān)督數(shù)據(jù)輸入到訓(xùn)練好的文本編碼器模型中,得到文檔級關(guān)系抽取結(jié)果,所述訓(xùn)練好的文本編碼器模型是由降噪后的樣本文檔級遠(yuǎn)程監(jiān)督數(shù)據(jù)訓(xùn)練得到的。
進一步地,所述訓(xùn)練好的文本編碼器模型通過以下步驟訓(xùn)練得到:
通過訓(xùn)練好的預(yù)降噪模型,對樣本遠(yuǎn)程監(jiān)督數(shù)據(jù)進行降噪處理,得到降噪后的樣本遠(yuǎn)程監(jiān)督數(shù)據(jù);
根據(jù)所述降噪后的樣本遠(yuǎn)程監(jiān)督數(shù)據(jù),對待訓(xùn)練的文本編碼器模型分別進行實體提及匹配預(yù)訓(xùn)練、實體關(guān)系事實檢測預(yù)訓(xùn)練和關(guān)系事實對齊預(yù)訓(xùn)練,得到預(yù)訓(xùn)練的文本編碼器模型;
通過預(yù)設(shè)標(biāo)注數(shù)據(jù)集,對所述預(yù)訓(xùn)練的文本編碼器模型進行調(diào)整,得到訓(xùn)練好的文本編碼器模型,所述預(yù)設(shè)標(biāo)注數(shù)據(jù)集是由已標(biāo)注實體關(guān)系的遠(yuǎn)程監(jiān)督數(shù)據(jù)構(gòu)建得到的。
進一步地,所述訓(xùn)練好的預(yù)降噪模型通過以下步驟訓(xùn)練得到:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué);騰訊科技(深圳)有限公司,未經(jīng)清華大學(xué);騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135229.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于提供遠(yuǎn)程幫助的方法和服務(wù)器
- 遠(yuǎn)程登錄會話維護方法、遠(yuǎn)程登錄代理和計算機網(wǎng)絡(luò)系統(tǒng)
- 汽車遠(yuǎn)程控制裝置和方法
- 一種基于EMS系統(tǒng)的變電站遠(yuǎn)程監(jiān)控系統(tǒng)
- 遠(yuǎn)程控制終端、遠(yuǎn)程控制方法、遠(yuǎn)程受控終端和遠(yuǎn)程受控方法
- 對遠(yuǎn)程受控終端的受控方式進行自定義的裝置及方法
- 一種基于互聯(lián)網(wǎng)的移動遠(yuǎn)程醫(yī)療綜合服務(wù)系統(tǒng)
- 一種遠(yuǎn)程控制方法、裝置及存儲介質(zhì)
- 一種遠(yuǎn)程炒菜機、遠(yuǎn)程炒菜機系統(tǒng)及遠(yuǎn)程炒菜方法
- 一種計算機遠(yuǎn)程控制組件
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





