[發明專利]標注方法、關系抽取方法、存儲介質和運算裝置在審
| 申請號: | 202010124863.5 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111291554A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 代亞菲 | 申請(專利權)人: | 京東方科技集團股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/35;G06F16/36 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 柴亮;姜春咸 |
| 地址: | 100015 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 方法 關系 抽取 存儲 介質 運算 裝置 | ||
本公開提供一種標注方法、關系抽取方法、存儲介質和運算裝置。該標注方法中包括:確定待標注文本、多個正確種子和多個錯誤種子;根據所述正確種子遍歷所述待標注文本中每一個句子以匹配出第一模板;根據所述第一模板遍歷所述待標注文本中每一個句子以匹配出種子;根據已有第一模板、已有的正確種子和已有的錯誤種子評價匹配出的種子,其中評價合格的種子作為正確種子。重復執行上述遍歷步驟設定次數后停止或至評價合格的正確種子的數量達到設定閾值后停止,輸出匹配出的正確種子及該正確種子中第一實體和第二實體之間的分類關系。
技術領域
本公開涉及語言識別技術領域,更具體地,涉及一種標注方法、一種關系抽取方法、一種存儲介質和一種運算裝置。
背景技術
在自然語言識別技術領域通常會基于深度學習進行關系抽取。前提是提供大量的標注好數據以進行模型的訓練。現有的做法是基于人工對每一個句子進行標注。人力和時間成本都很高。
發明內容
本公開提供一種標注方法、一種關系抽取方法、一種存儲介質和一種運算裝置,以至少部分解決現有技術中存在的技術問題。
本公開第一方面提供一種標注方法,包括:
步驟S1、確定待標注文本、多個正確種子和多個錯誤種子,所述待標注文本中的每個句子均已由標簽標示出一個第一實體和一個第二實體,所述正確種子和所述錯誤種子均是由第一實體和第二實體構成的實體對;
步驟S2、根據所述正確種子遍歷所述待標注文本中每一個句子以匹配出第一模板;
步驟S3、根據所述第一模板遍歷所述待標注文本中每一個句子以匹配出種子;
步驟S4、根據已有第一模板、已有的正確種子和已有的錯誤種子評價匹配出的種子,其中評價合格的種子作為正確種子;
步驟S5、用步驟S4中得到的正確種子替換步驟S2中的正確種子重復執行步驟S2-S4設定次數后停止或至評價合格的正確種子的數量達到設定閾值后停止;
步驟S6、輸出匹配出的正確種子及該正確種子中第一實體和第二實體之間的分類關系。
可選地,所述根據所述正確種子遍歷所述待標注文本中每一個句子以匹配出第一模板包括:
將所述待標注文本中的句子中出現所述正確種子的句子進行聚類;
根據同一類句子和對應的正確種子得到第一模板,所述第一模板包括該同一類句子中出現在對應的正確種子之前的字段的字符向量化表達、出現在對應的正確種子中第一實體與第二實體之間的字段的字符向量化表達、出現在對應的正確種子之后的字段的字符向量化表達。
可選地,所述根據所述第一模板遍歷所述待標注文本中每一個句子以匹配出種子包括:
根據所述待標注文本中的句子得到第二模板,所述第二模板包括該句子中出現在該句子中第一實體和第二實體二者之前的字段的字符向量化表達、出現在該句子中第一實體和第二實體二者之間的字段的字符向量化表達、出現在該句子中第一實體和第二實體二者之后的字段的字符向量化表達;
比較所述第一模板與所述第二模板的相似度;
在所述第一模板與所述第二模板的相似度大于設定閾值的情況下,該第二模板所在句子中的第一實體和第二實體作為匹配出的種子。
可選地,所述第一模板與所述第二模板的相似度由如下Match函數確定:
Match(P1,P2)=α*Cosine(p,q)+β*Euclidean(p,q)+γ*Tanimoto(p,q),其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東方科技集團股份有限公司,未經京東方科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010124863.5/2.html,轉載請聲明來源鉆瓜專利網。





