[發(fā)明專利]一種基于公共文本的實體標簽自動化標注方法在審
| 申請?zhí)枺?/td> | 202011360173.6 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112612884A | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設計)人: | 萬海;陳德和;劉亞男;黃佳莉;曾娟 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 510260 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 公共 文本 實體 標簽 自動化 標注 方法 | ||
1.一種基于公共文本的實體標簽自動化標注方法,其特征在于,所述方法包括:
S1:根據下游任務領域的特性預定義知識圖譜中與下游任務相關的實體標簽集合;
其中,知識圖譜是由一系列的節(jié)點以及邊構成的,其中的節(jié)點就是實體,而邊就是實體之間的關系;
S2:根據實體標簽集合,獲得實體與標簽的文本證據集合;
S3:根據S2獲得的文本證據集合,利用自然語言處理模型中的編碼器對文本證據進行編碼;
S4:實體類型預測:基于S3得到的文本證據編碼結果,預測實體屬于不同標簽的程度;
S5:下游模型訓練:將經實體類型預測后的知識圖譜應用到下游任務中,根據下游任務的損失函數對自然語言處理模型進行訓練,再通過梯度回傳將誤差反向傳播到自然語言處理模型中,對模型參數進行更新;
S6:利用更新后的自然語言處理模型對實體標簽進行標注。
2.根據權利要求1所述基于公共文本的實體標簽自動化標注方法,其特征在于,S2具體為:基于S1的預定義的標簽集合以及實體本身的名稱作為搜索關鍵詞,獲得搜索引擎對于特定實體-標簽搜索組合返回的網頁快照,從而獲得該實體屬于該標簽的文本證據集合。
3.根據權利要求1或2所述基于公共文本的實體標簽自動化標注方法,其特征在于,S3中利用編碼器對不同的文本證據集合應用卷積神經網絡文本處理模型對文本證據進行編碼。
4.根據權利要求3所述基于公共文本的實體標簽自動化標注方法,其特征在于,S3中所述編碼器包括文本編碼器、單標簽文本證據集合編碼器以及多標簽文本證據集合編碼器。
5.根據權利要求4所述基于公共文本的實體標簽自動化標注方法,其特征在于,S3具體為:
(1)利用文本編碼器對文本證據集合中的每個文本進行編碼:利用文本編對搜索引擎返回的每條文本證據進行編碼,得到句子級別的標簽嵌入表示;
(2)利用單標簽文本證據集合編碼器對同一標簽下得到的文本證據集合進行編碼:單標簽文本證據集合編碼器利用單個實體與單個標簽的文本證據集合,再應用注意力機制對單標簽文本證據集合中的所有文本證據進行編碼,得到單標簽級別的標簽嵌入表示;
(3)利用多標簽文本證據集合編碼器對標簽集合中的文本證據集合進行編碼:由于實體可能屬于多個標簽,因此多標簽文本證據集合編碼器基于實體在每個標簽下的單標簽級別標簽嵌入表示,再應用一層注意力機制對標簽集合中的單標簽級別標簽嵌入表示進行編碼,得到最終的多標簽級別的標簽嵌入表示。
6.根據權利要求5所述基于公共文本的實體標簽自動化標注方法,其特征在于,文本編碼器通過卷積神經網絡文本處理模型對搜索引擎返回的每條文本證據進行編碼。
7.根據權利要求5或6所述基于公共文本的實體標簽自動化標注方法,其特征在于,文本編碼器過程具體為:
假設實體表示為e,標簽集合表示為C={c1,c2,......cN},利用實體e與標簽ci獲得的文本集合為T(e,ci)={t1,t2,......tM},其中tj為搜索引擎返回的第j條文本網頁快照,即一段文字;
對于T(e,ci)中的每一條文本,應用卷積神經網絡對文本進行編碼,得到每條文本的文本嵌入表示
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011360173.6/1.html,轉載請聲明來源鉆瓜專利網。





