[發明專利]一種基于跨語言資源的柬語命名實體識別的方法有效
| 申請號: | 201711084450.3 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107861947B | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 嚴馨;謝俊;郭劍毅;余正濤;線巖團 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語言 資源 命名 實體 識別 方法 | ||
本發明涉及一種基于跨語言資源的柬語命名實體識別的方法,屬于自然語言處理技術的領域。本發明首先獲取英柬雙語平行文本語料及柬語單語文本語料;然后使用工具Word2vec對柬語單語文本進行處理得到柬語單詞的向量表示;再通過余弦方法計算柬語單詞之間的相似度值同時使用IBM模型實現柬英雙語詞之間的詞對齊;運用雙語圖模型中的標簽傳播算法對柬英雙語語料進行處理進而得到在該文本中的柬語單詞的對應類別,再將其作為跨語言特征并且連同詞性特征、標記特征,包括標記人名、地名的單詞特征運用到機器學習模型進而實現對所獲得語料進行實體命名識別。
技術領域
本發明涉及一種基于跨語言資源的柬語命名實體識別的方法,屬于自然語言處理技術的領域。
背景技術
命名實體識別的主要任務是識別出文本中的人名、地名、機構組織名等專有名稱。命名實體識別技術是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。從語言分析的全過程來看,命名實體識別屬于詞法分析中未登錄詞識別的范疇。柬埔寨語命名實體構造特點與漢語有類似的地方,除了極少量縮略詞外,其余命名實體的外形與其他單詞無區別,但仍存在一些線索暗示命名實體的存在,如人名地名指示詞、人名或地名的指示KCC等,詞性也暗示了命名實體的存在,在漢語等語言的命名實體識別中,這些特征取得了不錯的效果,我們仍然沿用有效的特征。
同時和其他亞洲語言一樣,柬埔寨語缺乏對命名實體識別非常有效的大寫特征;對于大多數自然語言處理任務,英文具有較多的訓練數據、更好的知識資源及區分度較強的特征,英文命名實體識別技術較為成熟,獲得不錯的效果,而在全球一體化的背景下,我們可以從紙質文本、網頁及維基百科獲得較多的英語與其他語言的雙語平行文本,從而利用跨語言信息獲得更具優勢的特征來促進柬埔寨語命名實體的識別正確率。
發明內容
本發明提供了一種基于跨語言資源的柬語命名實體識別的方法,用于解決柬埔寨語命名實體的識別正確率低的問題。
本發明的技術方案是:一種基于跨語言資源的柬語命名實體識別的方法,獲取英柬雙語平行文本語料及柬語單語文本語料;然后使用工具Word2vec對柬語單語文本進行處理得到柬語單詞的向量表示;再通過余弦方法計算柬語單詞之間的相似度值同時使用IBM模型實現柬英雙語詞之間的詞對齊;運用雙語圖模型中的標簽傳播算法對柬英雙語語料進行處理進而得到在該文本中的柬語單詞的對應類別,再將其作為跨語言特征并且連同詞性特征、標記特征,包括標記人名、地名的單詞特征運用到機器學習模型進而實現對所獲得語料進行實體命名識別。
所述方法的具體步驟如下:
Step1、獲取英柬雙語平行文本語料及柬語單語文本語料;
Step2、使用Word2vec工具對所獲得的柬語單語文本語料進行處理,得到該文本
中的每個柬語單詞所對應的詞向量文本;
Step3、計算柬語單語單詞之間的相似度通過對詞向量使用余弦相似度的方法來實現;設柬語文檔中任意兩個單詞的向量表示為wi和wj,其中wi=(wi1,wi2...win),wj=(wj1,wj2...wjn),則其兩詞之間的相似度表示為:
Step4、實現柬語單詞與英語單詞的詞對齊:使用標準的詞對齊技術IBM模型對柬語單詞和英語單詞進行詞對齊;
Step5、使用標簽傳播算法對柬英雙語平行文本中的每個柬語單詞計算出其對應的類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711084450.3/2.html,轉載請聲明來源鉆瓜專利網。





