[發明專利]一種采用上下文特征匹配的中文機構名簡稱識別系統無效
| 申請號: | 201410261878.0 | 申請日: | 2014-06-12 |
| 公開(公告)號: | CN104035918A | 公開(公告)日: | 2014-09-10 |
| 發明(設計)人: | 楊靜;郝娟;潘云;裴逸鈞;杜澤宇 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海藍迪專利事務所 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 采用 上下文 特征 匹配 中文 機構 簡稱 識別 系統 | ||
技術領域
????本發明涉及自然語言處理技術領域,具體地說是一種基于上下文特征的機構名簡稱識別系統。
背景技術
命名實體識別已經成為自然語言處理中的一項基本任務,在信息抽取、句法分析、機器翻譯工作中,擔任著重要的角色。命名實體中的人名、地名、機構名是最重要的三類,目前,前兩種的識別研究已經非常廣泛細致,對機構名進行準確、高效的識別具有重要意義。在文本中,簡稱是一種普遍存在的語法現象,但是由于機構名簡稱的組成形式多樣、規律性不強、同一全稱可能有多個簡稱等特點,導致對其識別困難重重。
目前來看,機構名簡稱識別方法可以分為兩類—基于規則的方法和基于統計的方法。但是無論是哪一種識別方法,機構名簡稱的獲得都依賴于全稱,如果語料中不包含機構名簡稱對應的全稱,那么該機構名簡稱將無法被識別。另外,默認組成簡稱的漢字也都來自于全稱并且與在全稱中的順序保持一致,這就造成不符合上述條件的簡稱難以被識別。如“成電”是“電子科技大學”的簡稱,因為“成”并不是全稱中的漢字,所以簡稱“成電”將不會被識別。又如“北醫三院”是“北京大學第三醫院”的簡稱,“醫”和“三”的順序與在全稱中不一致,因此“北醫三院”也很難被識別。
發明內容
本發明的目的是針對現有技術中的缺陷而提供的一種采用上下文特征匹配的中文機構名簡稱識別系統,該系統既不依賴機構名全稱知識庫,也不依賴機構名簡稱的組成形式,而是利用機構名的上下文特征對機構名簡稱進行識別。
????實現本發明目的的具體技術方案是:
????一種采用上下文特征匹配的中文機構名簡稱識別系統,該系統包括訓練模塊及識別模塊,其中:
所述訓練模塊:以某一新聞語料作為訓練集,從訓練集訓練得到機構名的上下文特征即相交特征集與機構名獨有特征集以及干擾詞表;
所述識別模塊:以與訓練集不同的新聞語料作為測試集,在測試集中采用機構名上下文特征匹配算法對機構名簡稱識別;首先,在錯誤率???????????????????????????????????????????????的取值范圍下,使用相交特征集與機構名獨有特征集中的特征與句子進行匹配,識別候選機構名簡稱;然后,使用final-words去除掉候選機構名簡稱中的干擾詞,得到較準確的機構名簡稱;最后,利用擴展操作,召回文中部分未被識別出的簡稱。
????所述訓練模塊中訓練得到機構名的上下文特征,具體包括:
1)訓練得到機構名的三種上下文特征:前特征、后特征、弱可信特征對,機構名的上下文特征由詞語以及詞性組成;以某一新聞語料庫詞性標注為準則認定標記為名詞n、名語素Ng、成語i詞性的詞語具有實際含義,被定義為強特征,標記為助詞u、介詞p詞性的詞語不具備實際的含義,被定義為弱特征;把出現在機構名上文的強特征定義為前特征,出現在機構名下文的強特征定義為后特征;把上下文都是弱特征的詞語當作一個特征,定義為弱特征對;機構名上下文特征是由前特征、后特征和弱特征對3類特征構成;只選擇緊跟在機構名前后的一個詞語作為上下文特征;
2)將成語、動名詞詞語作為干擾詞,以所述1)同樣形式獲得干擾詞的3類上下文特征;
3)將機構名的3類上下文特征分別與干擾詞的3類上下文特征相交,相交的部分為相交特征集,在機構名的特征集中除去相交部分就是機構名獨有特征集;每一個相交特征的錯誤率根據公式(1)得出,每一個機構名獨有特征的錯誤率為0;
??????1,?2,?3,?……??????(1)
其中,是指出現在特征之間的詞語為干擾詞的總次數,是指出現在特征之間的詞語為機構名的總次數。
????所述訓練模塊中訓練得到干擾詞表,具體包括:
從某一新聞訓練語料中把長度在3-6個字的干擾詞全部找到,當作候選干擾詞;并對候選干擾詞進行如下擴展:
1)通過加入中國的姓氏補充名詞干擾詞;
2)通過加入一些地名的尾字補充名詞干擾詞;?
再對候選干擾詞進行過濾處理:
1)對于中國姓氏:與某一新聞訓練語料中的每個簡稱的首字進行一一比對,如果中國姓氏與所有簡稱的首字都不匹配,把其加入到干擾詞表中;
2)對于地名尾字:與訓練語料中的每個簡稱的最后一個尾字進行一一比對,如果地名尾字與所有簡稱的尾字都不匹配,把其加入到干擾詞表中;
得到了干擾詞表final-words。
???所述識別模塊中采用機構名上下文特征匹配算法對機構名簡稱識別,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410261878.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種在網站內容管理系統中定位網頁的方法及裝置
- 下一篇:多功能計算器





