[發明專利]一種基于條件隨機場的縮略詞擴展解釋識別方法在審
| 申請號: | 201210404108.8 | 申請日: | 2012-10-23 |
| 公開(公告)號: | CN103778142A | 公開(公告)日: | 2014-05-07 |
| 發明(設計)人: | 劉杰;陳季夢;黃亞樓;劉天筆;王嫄 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 條件 隨機 縮略 擴展 解釋 識別 方法 | ||
技術領域
本發明涉及機器學習領域和縮略詞識別任務,尤其涉及一種基于條件隨機場的縮略詞擴展解釋識別方法。
背景技術
目前,針對英文縮略詞及其解釋的自動識別與抽取方法主要有基于規則的方法和全監督的機器學習方法。這些方法通常要求在文本中必須出現縮略詞,然后設計不同的規則和特征在該縮略詞附近某窗口大小內匹配可能出現的擴展解釋候選。
發明人在實現本發明的過程中,發現現有技術方法中至少存在以下缺點和不足:
1)歸納縮略詞抽取規則復雜,耗費人力資源。
2)忽略了大多數的縮略詞及其擴展解釋并不成對出現這一現象。若是爬取的源數據中未包含同時出現的縮略詞與擴展解釋,或縮略詞與擴展解釋并未在小窗口中同時出現,則將遺漏可能的擴展解釋。
3)另外,傳統方法通常采用特征定義的方式利用這一上下文語境信息,而從未使用模型來表示文本的上下文關系。
發明內容
本發明提供了一種基于條件隨機場的縮略詞擴展解釋識別方法。本發明將傳統的縮略詞與擴展解釋對的識別任務建模成一個序列標記任務,并采用條件隨機場(CRF,Conditional?Random?Fields)來識別縮略詞的擴展解釋。CRF模型考慮了縮略詞擴展解釋的上下文信息和結構信息,可更好地從文本序列中識別出可能的擴展解釋。所述方法包括將縮略詞擴展解釋識別任務建模為序列識別問題;利用CRF來識別縮略詞擴展解釋;具有潛在稀疏特征學習能力的條件隨機場的方法;研究多種特征函數的設計及其組合方法;縮略詞與其對應的拓展解釋的三類特征的設計及應用。詳見下文描述:
所述將縮略詞擴展解釋識別任務建模為序列識別問題,包括縮略詞的擴展解釋識別任務,序列標注模型,序列識別標簽設計。
所述縮略詞的擴展解釋識別任務,是指在序列文本中識別出解釋某縮略詞的短語的過程。因為單獨識別出擴展解釋短語中的一個或部分詞,并不能完整地解釋縮略詞,而只有全部識別出擴展解釋,才能解釋縮略詞的意義,所以該任務可認為是序列識別的過程。由于縮略詞的擴展解釋具有上下文的序列特征,因此本發明將其建模為序列標注模型,而不是簡單的對單個詞進行標注。
所述序列標注模型定義為,給定一個縮略詞q和一個包含序列單詞x=(x1,...,xn)的句子,從所有可能的序列標注中挑選出最有可能的序列標注y=(y1,...,yn)。因此,將從解得的標簽序列y中得知是否該句子包含與縮略詞對應的候選解釋,無需縮略詞與擴展解釋在文中成對出現。
所述序列識別標簽設計,在自然語言任務中,常用兩種NP標簽來表示一個連續的短語(chunk):短語的開始(B-NP),短語的其他詞(I-NP)。在本發明中,發明人也用“B”來表示擴展解釋的開始,“I”來表示擴展解釋中的其他詞,而其他不相干的詞則標記為“O”。
所述利用CRF來識別縮略詞擴展解釋,指CRF在建模時考慮了數據的內容信息和數據之間標簽的結構和動態變化等信息,在序列標注任務中,CRF要學習一個從觀測序列x=(x1,...,xn)到標注序列y=(y1,...,yn)的函數映射關系
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210404108.8/2.html,轉載請聲明來源鉆瓜專利網。





