[發明專利]一種基于協同訓練的雙語命名實體識別方法有效
| 申請號: | 201310593746.3 | 申請日: | 2013-11-21 |
| 公開(公告)號: | CN103853710A | 公開(公告)日: | 2014-06-11 |
| 發明(設計)人: | 黃河燕;史樹敏;李業剛 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 協同 訓練 雙語 命名 實體 識別 方法 | ||
1.一種基于協同訓練的雙語命名實體識別方法,其特征在于包括以下步驟:?
步驟一、初始化標注模型;在2000句已標注命名實體的雙語語料上,分別訓練漢英命名實體初始標注模型;?
步驟二、在漢英句子級別對齊的未標注命名實體語料上,利用10倍交叉選擇增量標注,進行雙語協同訓練;具體過程如下:?
首先,從漢英句子級別對齊的未標注命名實體語料集合中隨機抽取1000個對齊的句子,表示為利用步驟一得到的標注模型,對雙語句子分別進行命名實體標注;計算雙語標注一致率,初始化標注語料增量集合為空;?
然后,隨機從中抽取10%的句對,形成依據詞對齊從到進行標注投射,并對投射命名實體標注區域進行擴展,使之容納更多的目標語言命名實體假設,每個命名實體投射假設與源語言命名實體組成一個雙語命名實體假設;之后,融合目標語言命名實體的單語特征和雙語命名實體的對齊特征,對投射結果進行修正,將修正后的結果作為目標語言端標注語料增量在?上重新進行目標語言命名實體標注模型訓練,并用訓練后的標注模型重新對中的進行標注,重新計算雙語標注一致率;?
循環執行上述過程,進行10倍交叉,將循環中雙語標注一致率最高時對應的標注語料增量作為本次協同訓練的目標語言端標注語料增量在上重新進行目標語言命名實體標注模型訓練;?
使用同樣的方法,尋找源語言端的增量標注語料在上重新進行源語言命名實體標注模型訓練;?
步驟三、循環執行步驟二,通過在開發集上實驗直至算法收斂;循環結束后,最終產生漢英兩個命名實體標注模型,即訓練好的雙語命名實體識別模型;最后,對跨領域的雙語語料進行命名實體的識別,進一步構建命名實體詞典。?
2.如權利要求1所述的一種基于協同訓練的雙語命名實體識別方法,其特征在于,計算雙語標注一致率的方法如下:?
設雙語標注一致率為,conformity_ration初始化?
max←conformity_ration
初始化標注語料增量集合為空,
其中,(wsi,wtj)k表示平行句對的第k(1≤k≤K)對詞對;T(wsi),T(wtj)分別表示命名實體漢英兩端的標記;U表示未標注語料集;n表示U中的句子數;標注語料中,共標注三種命名實體,分別是PER——人名、LOC——地名和ORG——組織機構名;按照BIO標注集標記,所有字符有7種標注:B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG和O;?
計算對齊標注一致率時,忽略標記“B”和“I”的差別,認為它們是相同的標記。?
3.如權利要求1所述的一種基于協同訓練的雙語命名實體識別方法,其特征在于所述步驟二中,對投射命名實體標注區域進行擴展的方法如下:?
首先對從源語言到目標語言的命名實體投射區域進行擴展,使之容納更多的目標語言命名實體假設,每個命名實體投射假設與源語言命名實體組成一個雙語命名實體假設;中任意一個命名實體表示為通過詞投射得到目標語言端連續的且包含投射中心詞的中心詞塊作為最小候選區域把包含所有投射詞的投射區域兩端分別向外擴展4個詞作為最大候選區域;?
在目標語言端,建立一個滑動窗,從最小候選區域出發,不斷向句子任意一側擴充詞,直至達到最大候選區域邊界為止,從而擴展產生一系列的目標語言端候選命名實體假設;每個目標語言端命名實體假設與組合,形成一個雙語命名實體假設,表示為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310593746.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自適應魯棒在線目標跟蹤方法
- 下一篇:基于量子散列函數的新型圖像加密方法





