[發明專利]一種面向文本的領域術語與術語關系抽取方法有效
| 申請號: | 201110312280.6 | 申請日: | 2011-10-15 |
| 公開(公告)號: | CN102360383A | 公開(公告)日: | 2012-02-22 |
| 發明(設計)人: | 鄭慶華;劉均;羅俊英;程曉程 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 文本 領域 術語 關系 抽取 方法 | ||
1.一種面向文本的領域術語與術語關系抽取方法,其特征在于,包括下述步驟:
(1)對待識別文本進行預處理;
(2)通過倒排索引結構構建術語詞典,并采用最長序列匹配算法,對待識別文本中的術語進行識別;所述的術語是指在特定領域中約定俗成,或者經過規定,被廣泛使用來描述該領域中某個概念的詞;所述術語詞典是指,通過模式識別的方法,從原始語料集中提取出來的術語集,該術語集采用倒排索引結構進行組織;
(3)利用多維度節點標記規則,通過訓練的條件隨機場模型進行多層次標記序列標注,抽取術語間的關系;所述術語關系抽取是指給定某一領域內一定語境中的術語集合,給定定義好的術語關系類型,判斷術語間是否存在某種類型的關系;
其中,步驟(2)所述的倒排索引結構是指:a)將相同前綴的術語分成一組,按照詞長,由長到短排序;b)以它們的公共前綴作為索引關鍵詞;
步驟(2)所述的術語詞典構建方法包括下述具體步驟:
Step1:對原始語料集進行預處理,獲取候選詞集;
Step2:通過互聯網詞頻過濾和混合詞頻過濾方法,對候選詞進行噪聲詞過濾;所述互聯網詞頻過濾是指,對于一個候選詞K,若K在互聯網詞頻表中的詞頻值大于閾值M,那么K可能是一個常詞,則將其過濾,互聯網詞頻表是指,對詞串在大量的互聯網文本中出現次數的抽樣統計;所述混合詞頻過濾方法是指,對于一個候選詞K,如果存在n個候選詞包含K,且那么K可能是一個常詞,則將其過濾;
Step3:在傳統術語特征基礎上,加入互聯網特征,并采用雙模型結構的方法,構建術語識別模型,從原始語料集中抽取領域術語;
步驟(2)所述的最長序列匹配算法包括下述具體步驟:
Step1:對待識別的文本進行分詞;
Step2:將分詞后得到基本詞作為關鍵詞,在術語詞典中查找包含該前綴的術語集;
Step3:對這個術語集中出現的術語,按詞長,由長到短,與待識別的文本中進行匹配,若匹配成功,則在原文中標識該術語。
2.根據權利要求1所述的面向文本的領域術語與術語關系抽取方法,其特征在于,所述多維度節點標記規則是指,在序列標注的過程中,根據每個節點的特征形成觀測序列的規則;所述節點是指句子當中的每個術語或普通詞語;所述觀測序列是指每個節點的可以觀測到的特征組合成的序列;多維度節點標記規則分為以下4個維度:
(1)詞語或者術語本身作為標記;
(2)當前節點詞語或者術語的詞性標記信息;
(3)節點類型標記,表示當前節點是一個普通詞語還是一個術語,其中詞語用標記“Word”來表示,術語用標記“Term”來表示;
(4)特征詞語類別標記:
其中,特征詞語是指,對于術語關系抽取任務,句子上下文中有一些詞語對判斷術語間的關系有著重要的提示作用;特征詞語類別標記是指,為了區別提供了不同上下文語義信息的特征詞語,將特征詞語分為了幾個類別,加以區別對待,并在觀測序列的表示中,用不同的標記給予明示。
3.根據權利要求2所述的面向文本的領域術語與術語關系抽取方法,其特征在于,所述特征詞語類別標記分為一層特征詞語類別標記和二層特征詞語類別標記;
一層特征詞語類別標記包括{W_Sele,W_Ref,W_Para,W_heir,P_Para,P_Expl,O},其中W_Sele用于標記表選擇的詞語,W_Ref用于標記有自反性的詞語,W_Para用于標記并列關系,W_heir用于標記表示層次概念的詞,P_Para用于標記表示并列的符號,P_Expl用于標記表解釋說明的符號,O標記其他;
二層特征詞語類別標記包括{W_Enti,W_Syn,W_Para,W_Imp1,W_Imp2,W_Ass,W_Seg,W_Whole,W_Omis,W_Neg},其中W_Enti用于標記表同樣稱謂的詞,W_Syn用于標記表解釋同義的詞,W_Para用于標記并列關系,W_Imp1用于標記向后概念蘊含,W_Imp2用于標記向前概念蘊含,W_Ass用于標記物理組合,W_Seg用于標記物理片段,W_Whole用于標記全體概念,W_Omis用于標記省略,W_Neg用于標記否定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110312280.6/1.html,轉載請聲明來源鉆瓜專利網。





