[發明專利]一種快速啟動的交互式關系標注與抽取框架在審
| 申請號: | 202111474423.3 | 申請日: | 2021-12-03 |
| 公開(公告)號: | CN114118092A | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 李學愷;漆桂林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/36;G06F16/28;G06K9/62;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 211135 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 啟動 交互式 關系 標注 抽取 框架 | ||
1.一種快速啟動的交互式關系標注與抽取框架,其特征在于,包括以下步驟:
S1:使用通用命名實體識別數據集對命名實體識別模型進行預訓練;
S2:使用通用關系抽取數據集對少樣本關系抽取模型進行預訓練;
S3:設定待抽取關系和少量標注數據;
S4:對待抽取文本進行數據預處理;
S5:使用命名實體識別模型對待抽取文本進行命名實體識別;
S6:對實體進行人工配對;
S7:對配對結果進行初步關系抽??;
S8:對關系抽取結果進行人工校對;
S9:對少樣本關系抽取模型進行微調;
S10:重復S4到S9直到所有的待抽取文本均處理完成。
2.根據權利要求1所述的快速啟動的交互式關系標注與抽取框架,其特征在于,步驟S1:使用通用命名實體識別數據集對命名實體識別模型進行預訓練,構建快速啟動交互式關系標注與抽取框架,框架包含:命名實體識別模型、少樣本關系抽取模型、待處理文本倉庫、通用命名實體識別數據集、通用關系抽取數據集和專用關系抽取數據倉庫。
3.根據權利要求2所述的快速啟動的交互式關系標注與抽取框架,其特征在于,步驟S2使用通用關系抽取數據集對少樣本關系抽取模型進行預訓練,具體如下,構建框架中的命名實體識別模型Netner,采用通用領域命名實體類識別數據集進行預訓練;構建所述框架中的少樣本關系抽取模型Netre,先使用通用領域關系抽取數據集以元學習方式訓練,得到初始化參數θ0,再使用專用關系抽取數倉庫對Netre的參數θ0進行微調,得到參數θ1。
4.根據權利要求3所述的快速啟動的交互式關系標注與抽取框架,其特征在于,步驟S3:設定待抽取關系和少量標注數據;從待處理文本倉庫中,選取一條待抽取文本S。
5.根據權利要求4所述的快速啟動的交互式關系標注與抽取框架,其特征在于,步驟S4:對待抽取文本進行數據預處理;使用預訓練的命名實體類識別模型對待抽取文本進行命名實體識別,在待處理文本中將命名實體識別的結果{e1,e2,...en}進行標記。
6.根據權利要求5所述的快速啟動的交互式關系標注與抽取框架,其特征在于,步驟S5:使用命名實體識別模型對待抽取文本進行命名實體識別,具體如下,標注者手動將S4中識別出的命名實體進行配對,即選出需要進行關系抽取的頭尾實體對{eh,et},將被標注者選中的實體對{eh,et},以及包含實體對的句子S、實體類型{Ch,Ct}和實體在句子中的相對位置{Posh,Post}作為下一步進行關系抽取的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111474423.3/1.html,轉載請聲明來源鉆瓜專利網。





