[發(fā)明專利]一種基于自然語(yǔ)言推理的關(guān)系抽取模型的生成方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110429116.7 | 申請(qǐng)日: | 2021-04-21 |
| 公開(kāi)(公告)號(hào): | CN112966527B | 公開(kāi)(公告)日: | 2022-12-30 |
| 發(fā)明(設(shè)計(jì))人: | 彭濤;胡文斐;孫雨鵬;吳禹;張睿鑫;劉志成 | 申請(qǐng)(專利權(quán))人: | 吉林大學(xué) |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/295;G06N3/04;G06N5/04 |
| 代理公司: | 北京華際知識(shí)產(chǎn)權(quán)代理有限公司 11676 | 代理人: | 曹書華 |
| 地址: | 130012 吉*** | 國(guó)省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自然語(yǔ)言 推理 關(guān)系 抽取 模型 生成 方法 | ||
本發(fā)明公開(kāi)的屬于自動(dòng)化識(shí)別技術(shù)領(lǐng)域,具體為一種基于自然語(yǔ)言推理的關(guān)系抽取模型的生成方法的生成方法,其包括:DescriptionLayer;EncoderLayer;InferenceLayer;ClassificationLayer。本發(fā)明在公開(kāi)的數(shù)據(jù)集SemEval 2010Task?8上與目前較為先進(jìn)的四個(gè)模型進(jìn)行對(duì)比試驗(yàn):1)基于GCN的FAT?RE模型,2)基于CNN和注意力機(jī)制的Att?Pooling?CNN模型,3)基于BERT的R?BERT模型,4)基于BERT的KnowBERT模型,從而使該模型整合了知識(shí)庫(kù)中的信息,且本模型的F1分?jǐn)?shù)達(dá)到90.1%,高于其他四個(gè)模型,說(shuō)明本模型通過(guò)構(gòu)造關(guān)系描述和多損失函數(shù)疊加,有效地提升了模型的性能,向模型中注入了先驗(yàn)知識(shí),并在推理的過(guò)程中。
技術(shù)領(lǐng)域
本發(fā)明涉及自動(dòng)化識(shí)別技術(shù)領(lǐng)域,具體為一種基于自然語(yǔ)言推理的關(guān)系抽取模型的生成方法。
背景技術(shù)
中國(guó)科學(xué)院模式識(shí)別自動(dòng)化研究所提出了PCNN模型,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和最大池化來(lái)抽取實(shí)體之間的關(guān)系,同時(shí)引入了基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督,緩解了數(shù)據(jù)不足的問(wèn)題。由于傳統(tǒng)RNN并行性較差,谷歌提出了完全基于注意力機(jī)制的編碼解碼器Transformer,在加快運(yùn)算速度的同時(shí)也提升了模型的精度。阿里巴巴提出了R-BERT模型,通過(guò)使用兩個(gè)實(shí)體以及Bert特殊標(biāo)記CLS所代表的詞向量作為關(guān)系向量表示,取得了良好的效果。華為的REDN模型通過(guò)使用非對(duì)稱核內(nèi)積函數(shù)來(lái)計(jì)算兩個(gè)實(shí)體之間的相關(guān)性,從而使用矩陣而非向量來(lái)表示實(shí)體之間的關(guān)系。
但是,目前主流的關(guān)系抽取方法存在以下問(wèn)題:
1)將關(guān)系提取任務(wù)視為一個(gè)簡(jiǎn)單的分類問(wèn)題,并在目標(biāo)句子中進(jìn)行。由于目標(biāo)句子可能無(wú)法提供足夠的證據(jù)和信息,因此它們的性能受到限制。
2)在向模型注入額外信息是,現(xiàn)有方法往往采取預(yù)訓(xùn)練的方式,或者通過(guò)自然語(yǔ)言處理工具來(lái)注入信息,這使得模型需要更多的訓(xùn)練時(shí)間以及額外的數(shù)據(jù)集,同時(shí)模型的性能還會(huì)依賴自然語(yǔ)言處理工具的性能。
提出了一個(gè)新的框架來(lái)處理關(guān)系抽取任務(wù)。當(dāng)面臨期末考試時(shí),選擇題總是比填空題更容易被接受。這主要?dú)w因于選擇題中的選擇可能編碼著一些關(guān)鍵的信息和證據(jù)。與以往采用多重分類策略不同,本文將關(guān)系抽取視為一個(gè)選擇題。為此,通過(guò)為每個(gè)關(guān)系創(chuàng)建描述來(lái)給模型提供選擇,其中這些描述被視為假設(shè)。然后以給定的目標(biāo)句和實(shí)體對(duì)為前提,將目標(biāo)句與所有關(guān)系描述分別匹配,形成前提假設(shè)對(duì)列表。對(duì)于所有的前提假設(shè)對(duì),模型將前提和假設(shè)之間的關(guān)系分為兩類,即(蘊(yùn)涵,不蘊(yùn)涵),從而推斷是否可以從前提中歸納出假設(shè)。最后,通過(guò)選擇一個(gè)可信度最高的假設(shè),模型自然地確定了目標(biāo)句所表達(dá)的關(guān)系。的框架很自然地處理了以前工作中存在的信息不足問(wèn)題。通過(guò)為模型提供顯式設(shè)計(jì)的關(guān)系描述來(lái)注入先驗(yàn)知識(shí)。同時(shí)的方法不需要額外的數(shù)據(jù)集來(lái)進(jìn)行預(yù)訓(xùn)練。
發(fā)明內(nèi)容
本部分的目的在于概述本發(fā)明的實(shí)施方式的一些方面以及簡(jiǎn)要介紹一些較佳實(shí)施方式。在本部分以及本申請(qǐng)的說(shuō)明書摘要和發(fā)明名稱中可能會(huì)做些簡(jiǎn)化或省略以避免使本部分、說(shuō)明書摘要和發(fā)明名稱的目的模糊,而這種簡(jiǎn)化或省略不能用于限制本發(fā)明的范圍。
為解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了如下技術(shù)方案:
一種基于自然語(yǔ)言推理的關(guān)系抽取模型的生成方法,其包括:
1)描述層DescriptionLayer:該層模型結(jié)構(gòu)的最底層,通過(guò)向輸入中注入額外的知識(shí)來(lái)增強(qiáng)模型,每個(gè)關(guān)系都有一個(gè)模板描述,使用關(guān)系描述模板將一個(gè)目標(biāo)句子映射到r個(gè)前提假設(shè)句子對(duì),r為關(guān)系類型總數(shù);其中原始目標(biāo)句子被視為前提,而關(guān)系描述則被視為假設(shè);
2)編碼器層EncoderLayer:該層對(duì)應(yīng)模型結(jié)構(gòu)中Encoder and InferenceLayer的一部分,在描述層之后,在編碼器層將前提假設(shè)句子對(duì)中的每個(gè)詞轉(zhuǎn)換為固定長(zhǎng)度的向量,以獲得每個(gè)前提假設(shè)句子對(duì)的向量表示,所有的r個(gè)前提假設(shè)對(duì)將被分別編碼;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110429116.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:軍用航空標(biāo)志涂料
- 下一篇:電梯的運(yùn)行方法和電梯
- 一種自然語(yǔ)言的搜索方法及系統(tǒng)
- 基于交互上下文處理自然語(yǔ)言方法
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言描述信息的生成方法及裝置
- 風(fēng)格可定制的文本生成
- 多輪預(yù)制對(duì)話
- 改變應(yīng)答以提供表現(xiàn)豐富的自然語(yǔ)言對(duì)話的方法、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言查詢的轉(zhuǎn)換
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言理解模型訓(xùn)練方法、自然語(yǔ)言理解方法及裝置
- 基于語(yǔ)義搜索的推理方法
- 一種基于規(guī)則的分布式推理方法及系統(tǒng)
- 一種上下文分布式推理方法和裝置
- 數(shù)據(jù)推理方法、裝置及計(jì)算機(jī)設(shè)備
- 多重推理方式的專家分診系統(tǒng)及其方法
- 多推理模式融合的老年病推理診斷系統(tǒng)
- 推理系統(tǒng)、推理方法、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種推理服務(wù)模型的運(yùn)行方法及裝置
- 一種評(píng)估指標(biāo)權(quán)重確定方法智能選擇的方法及系統(tǒng)
- AIStation推理平臺(tái)的推理服務(wù)管理方法和裝置
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)





