[發明專利]一種基于實例動態泛化的共指消解方法無效
| 申請號: | 201010239736.6 | 申請日: | 2010-07-29 |
| 公開(公告)號: | CN101901213A | 公開(公告)日: | 2010-12-01 |
| 發明(設計)人: | 秦兵;劉挺;郎君;黎耀炳;張牧宇 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實例 動態 泛化 消解 方法 | ||
1.一種基于實例的動態泛化共指消解方法,其特征在于所述動態泛化共指消解方法由訓練實例庫構建階段和篇章內實體消解階段組成;
所述訓練實例庫構建階段包括:
A、對訓練語料進行底層的自然語言預處理,抽取相互之間可能存在共指關系的候選名詞短語;
B、利用標注語料中共指鏈上的名詞短語和A中抽取的名詞短語,構造正/反訓練實;
C、抽取各正/反實例的特征取值,根據特征取值生成屬于該實例的“泛化點”;
D、構建帶“泛化點”的訓練實例庫,并對訓練實例庫建立倒排索引;
所述篇章內實體消解階段包括:
E、接收待處理的純文本,并進行各種底層的自然語言預處理,抽取相互之間可能存在共指關系的候選名詞短語;
F、利用E中抽取的名詞短語構造可能存在共指關系的候選實例,抽取該候選實例的特征取值;
G、抽取候選實例的特征取值,根據特征取值生成屬于該實例的“泛化點”;
H、根據動態泛化算法,利用候選實例的“泛化點”對訓練實例庫中的實例反復篩選泛化,剩余訓練實例中正例所占比例作為該測試實例的正例置信度;
I、根據各候選實例的正例置信度給出二元分類結果并合成最終共指鏈,共指消解完成。
2.根據權利要求1所述的一種基于實例的動態泛化共指消解方其特征還在于步驟A和E步驟中所述自然語言預處理過程包括:斷句;分詞;詞性標注;名詞短語識別;命名實體識別和句法分析。
3.根據權利要求1所述的一種基于實例的動態泛化共指消解方法,其特征還在于步驟B中所述構造訓練實例包括:
a.同一共指鏈上,存在共指關系的兩個相鄰名詞短語i、j構成正例對<i,j>;
b.共指鏈上,存在共指關系的兩個相鄰名詞短語i、j之間的其他名詞短語k(i<k<j),與名詞短語j構成反例對<k,j>。
4.根據權利要求1所述的一種基于實例的動態泛化共指消解方法,其特征在于步驟D中所述構建訓練實例庫和建立倒排索引的具體過程為:
a.對每個正/反訓練實例生成所有“泛化點”;
b.訓練實例庫中每一行記錄存儲了訓練實例的所有信息,包括訓練實例的類別標簽“+”或“-”,該實例的所有“泛化點”由泛化點類型、特征名稱、特征取值三部分信息組成;
c.以建立后的訓練實例庫為基礎,泛化點作為關鍵字,擁有該泛化點的所有訓練實例在實例庫中的位置列表作為索引項,由此建立訓練實例庫的倒排索引。
5.根據權利要求1、2、3或4所述的一種基于實例的動態泛化共指消解方法,其特征在于泛化點中特征取值類型分為:枚舉型、確定無窮型或變化無窮型;所述步驟H中所述動態泛化算法的具體過程為:
i、所述的泛化點生成過程,為待分類的實例生成泛化點,所有泛化點形成泛化點集G;
ii、訓練實例庫全部實例作為待篩選的實例集S;
iii、根據泛化點選取標準,從泛化點集G中選取一個泛化點g,使得S中擁有該泛化點的所有實例構成的子集G’滿足選取標準,該泛化點g稱之為最佳泛化點;
iv、從G中刪除g,令S={原S中擁有泛化點g的所有實例};
v、如果S中所有實例均屬于同一類別(即均為正例或均為反例),或者G為空,最終剩余實例子集S中正例所占比例作為該待分類實例的正例置信度,終止迭代;反之,返回第iii步。
6.根據權利要求5所述的一種基于實例的動態泛化共指消解方法,其特征還在于設計以下選取泛化點標準供步驟iii選用:
a.正、反例所占比例差的絕對值最大化,擁有該泛化點的實例子集G’中,正例所占比例與反例所占比例差的絕對值最大化;
b.覆蓋實例數量最大化,擁有該泛化點的實例子集G’中,實例數量最大化;
c.正例數量最大化,擁有該泛化點的實例子集G’中,正例數量最大化;
d.覆蓋實例數量最少化,擁有該泛化點的實例子集G’非空的情況下,實例數量最小化;
e.正例所占比例最大化,擁有該泛化點的實例子集G’中,正例所占比例最大化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010239736.6/1.html,轉載請聲明來源鉆瓜專利網。





