[發明專利]一種藏文命名實體的標注方法有效
| 申請號: | 201810059120.7 | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108268447B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 夏建華;張進兵;韓立新 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 藏文 命名 實體 標注 方法 | ||
本發明公開了一種藏文命名實體的標注方法,通過半監督學習方式,利用標注語料訓練雙粒度模型,即粗粒度級的基于詞向量KNN聚類的NER和細粒度級的基于半馬爾可夫的CRFs的NER,然后對未標注語料進行標注,并將新標注實體加入到標注語料進行雙粒度模型的二次訓練,迭代式提升雙粒度NER。本發明克服了監督學習過度依賴標注語料的局限性、傳統CRFs類方法單獨式判別方式的問題,融合了實體語義特征、命名實體之間的相互作用等特征,以及結合了聚類和概率圖,從命名實體的語義和語法結構的優勢互補角度來提高模型擬合度,實現了集體式地NER,有效地提高了藏文命名實體識別的準確率和效率。
技術領域
本發明涉及語言處理技術領域,尤其涉及一種藏文命名實體的標注方法。
背景技術
命名實體識別(Named Entity Recognition,NER)是指檢測文本中由單個字、 詞或者多個詞復合而成的實體詞,并確定其屬于哪一實體類:人名、地名、組 織機構等。從自然語言處理(Natural Language Processing,NLP)角度,命名實 體識別面臨的主要問題是要解決未登錄在詞典的實體識別問題。從知識發現和 獲取的角度,命名實體識別是從無結構文本中抽取涉及用戶需求信息的命名實 體。命名實體識別的效果會直接影響到凌駕于其之上的相關研究和應用系統的 性能,如文本的結構化表示、信息抽取、信息檢索、機器翻譯和問答系統等。
藏文與中文、英文等語言文字都存在一定的共性和特有的某些特點,如藏 文字形結構均以一個基字為核心,其余字母均以此為基礎前后附加和上下疊寫, 組合成一個完整的字表結構。盡管藏文命名實體識別所使用的詞典、規則、語 法和特征與其他語言有所區別,但是從命名實體識別的方法論角度,該實體識 別所采用的方法與其他語言所涉及的方法并無區別。
命名實體識別方法有很多,可以說涉足了監督學習(Supervised Learning, SL)到無監督學習(Unsupervised Learning,UL),基于規則和詞典的學習 (Rules-and-Dictionary Based Learning,RDBL)到統計機器學習(Statistical Machine Learning,SML),但是這些方法仍然存在一定的缺陷。比如,在監督學 習環境下,分類器在經過標注數據的訓練和學習后,雖然得到了較好的擬合性 能,但其前提是需要許多語言學家耗費大量的時間對原始語料進行標注。作為 SL對立面的無監督學習,雖然UL避免了標注數據帶來的代價,但由于其缺乏 訓練和學習的先驗知識,在實體識別的性能上明顯不如前者。人們在標注數據 的過程中,獲取了大量的規則,從實體構建規則的角度進行實體識別,雖然該 方法在小數據集中獲得了一定的準確率,但是,隨著數據集的增大,尤其在當 今的大數據時代,基于規則的實體識別方法的突顯出的主要問題在于規則庫不 能窮舉所有的命名實體規則。換一個角度來講,RDBL沒有充分利用命名實體的 上下文與相關特征。然而,SML正是充分利用了標注數據中命名實體的上下文 相關特征,顯著地提升了準確性。比如隱馬爾科夫模型(Hidden Harkov Models, HMM)、支持向量機(Support Vector Machine,SVM)、最大熵隱馬爾科夫模型 (Maximum Entropy Markov Model,MEMM)、條件隨機場(ConditionalRandom Fields,CRF)和跳躍鏈條件隨機場(skip-chain CRFs)。相比之下,條件隨機場 采用了全局范圍內統計歸范化的概率,克服了HMM和MEMM的標注偏置問題, 能夠獲得了更好的分類結果,而且skip-chain CRFs在基本CRFs的基礎上,利 用人工近義詞對取得了比以往NER算法更好的篇章內NER的準確率。以上所 述的統計學習方法都是從一個細粒度角度考慮實體識別,且在判別一個NE (Named Entity)時,CRFs類方法缺乏考慮特征的度量性、實體的內部特征(比 如無馬爾可夫性)等。此外,這類方法過度依賴于標注語料,即類似于在一個 廣義的詞典(包含特征和命名實體的標注語料)中尋找實體和匹配計算,但是, 當我們需要標注的命名實體未出現在該廣義詞典中,且其近義NE未具有其相似 的上下文,則可能導致識別誤差增大。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810059120.7/2.html,轉載請聲明來源鉆瓜專利網。





