[發明專利]多領域實體識別方法有效
| 申請號: | 202010437407.6 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111611802B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 陳文亮;方曄瑋;王銘濤;張民 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 郭磊 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域 實體 識別 方法 | ||
1.一種多領域實體識別方法,其特征在于,包括:為了減少數據分布不同帶來的遷移困難,使用了兩種方法同時標注目標領域的無標注語料,保留高置信度的標簽,對于不確定位置采用特殊標簽,得到目標領域的弱標注數據;由于弱標注語料包含不確定標簽,普通CRF層無法建模,應用局部標注學習對其建模;
自動標注:
利用外部實體詞典,根據正向最大匹配機制,在文本中尋找可能出現的實體;將匹配成功的部分標記為實體,匹配失敗的部分標記為“O”;
在源領域數據上訓練得到一個模型,直接用該模型標注目標領域的無標注文本,作為第二種自動標注方法的結果;
對比上述兩個方法的標注結果,保留兩種方法達成一致的標簽;把產生沖突的位置標為“U”,意為“Unknown”,即這個字的標簽不確定,可以為任何可能的標簽;所得結果就是最終的目標領域弱標注語料;
基于局部標注的命名實體識別:
模型將識別任務當作序列標注任務來處理,模型輸入是漢字序列,模型輸出是標簽序列;
在模型中,對于輸入的漢字序列,首先通過雙向長短期記憶網絡(LSTM)構造神經元特征,然后組合這些特征輸入到局部CRF層進行標簽預測;整個模型分為3個部分:1)字向量表示層:通過字向量映射表,將輸入字串表示為連續的向量;2)特征抽取層:通過雙向長短期記憶網絡和線性變換,得到每個字對應各標簽的概率;3)預測層:采用局部CRF,預測當前輸入條件下的輸出序列是什么;
上述模型分為兩個狀態,訓練和預測;在訓練過程中,系統會根據輸入的訓練語句計算相應的標簽序列,這個標簽序列一開始和正確的標簽序列肯定是相差比較大的,也就是說一開始模型的性能很差;然后模型會用自己預測得到的結果和正確答案計算得到一個差值,并反向更新系統參數,更新的目標就是盡可能最小化這個差值loss;隨著訓練的進行,這個模型對于序列的標簽預測能力會越來越好,直到達到一個性能的最高點;
“模型將識別任務當作序列標注任務來處理,模型輸入是漢字序列,模型輸出是標簽序列;”中,標簽采用BIOES形式,其中,B-XX表示XX類別實體的第一個漢字,E-XX表示XX類別實體的最后一個漢字,I-XX表示類別XX實體的中間部分,S-XX表示單個字的類別XX實體,其它漢字標注為“O”;
字向量表示層:將離散的輸入漢字轉換成連續的向量表示;使用一張映射表,表內存儲著每個漢字對應的向量表示;向量的初始值使用隨機數初始化或者設置為預訓練的字向量;在模型訓練過程中,向量表內容作為模型的參數,在迭代過程中隨同其它參數一起優化;給定句子C=<c1,c2,...,cn>,映射為向量序列<x1,x2,...,xn>;
特征抽取層:基于輸入的向量序列,使用雙向長短期記憶網絡進行編碼,得到特征表示;LSTM只對過去的信息編碼,不編碼未來的信息;為了兼顧上下文,同時應用前向和逆向LSTM對句子編碼;對于句子中的第t個漢字,前向LSTM和逆向LSTM分別得到隱層表示隱層表示拼接后得到每個字的最終隱藏狀態表示ht;然后,通過下列公式計算得到每個字對應各標簽的概率P:
P=Wmlpht+bmlp
其中,Wmlp和bmlp是模型參數;
預測層:局部標注數據中,有些位置的標簽可能為多個值;因此,句子的正確標簽序列可能不止一條;
給定句子C=<c1,c2,...,cn>,若對應標簽序列y=<y1,y2,...,yn>,則定義該句得分為:
其中,A是記錄轉移分數的矩陣;
表示從標簽yi轉移到標簽yi+1的分數;
P是分類層輸出,表示第i個位置標記為標簽yi的分數;
定義YL為所有正確序列的集合,定義集合YL的分數為:
損失函數仍然適用于全標注數據;當集合YL大小為1時,即只有一條正確序列,對應全標注數據的情況;因此,模型可以同時處理全標注數據和局部標注數據;
在訓練過程中,希望最大化所有正確序列分數之和的概率;所以,定義損失函數如下:
其中,YC表示輸入為C的情況下所有可能序列的集合;
在測試時,使用維特比算法求解分數最高的序列作為模型預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010437407.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種膽南星及其制備方法和應用
- 下一篇:一種人臉識別系統的系統恢復方法





