[發明專利]識別具有組合型歧義的歧義詞的方法和裝置無效
| 申請號: | 201210211767.X | 申請日: | 2012-06-21 |
| 公開(公告)號: | CN103514150A | 公開(公告)日: | 2014-01-15 |
| 發明(設計)人: | 鄭仲光;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 杜誠;陳煒 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 具有 組合 歧義 方法 裝置 | ||
技術領域
本申請總體上涉及自然語言處理的領域,尤其涉及識別具有組合型歧義的歧義詞的方法和設備。
背景技術
在自然語言處理中,分詞是其中的一個基本課題。大部分自然語言處理都建立在分詞的結果之上,因此分詞的質量直接影響到后續工作的準確性。由于自然語言自身的特點,在自然語言的分詞過程中,會遇到分詞歧義的問題。以漢語為例,漢語的分詞歧義主要包括如下兩種:交集型歧義和組合型歧義。一般,假設A、X和B分別為詞串,如果其組成的詞串AXB滿足AX和XB同時為詞的條件,則稱詞串AXB具有交集型歧義。另外,假設W是漢語詞集合,如果一個詞w∈W,并且該詞w可以分解為連續的詞串w1,w2,……,wn(n為大于或等于2的自然數),wi∈W(i=1,2,……,n),而且w和w1,w2,……,wn在漢語句子中均存在,則稱w具有組合型歧義。
交集型歧義的解決方案比較明確,現有的方案可以取得較好的效果。然而,對于組合型歧義,目前的解決方案還較少。關于組合型歧義,現有的解決方案主要分成以下兩種:一種是通過觀察預料庫,人工總結歧義現象,另一種是人工標注一部分語料作為訓練集,利用機器學習的方法來學習歧義現象。但是,現有的解決方案存在很多缺點。例如,人工很難總結出語料中潛在的歧義現象,而且人工的方式需要大量的時間和人力,成本很高。而且,組合型歧義具有領域相關的特點,即在不同的領域會產生不同的歧義現象,人工的方式很難預測。另外,人工標注語料也是成本很高的過程,如果分詞系統應用在新的領域,就需要重新標注新的語料。
因此,期望提供一種能夠適用于不同領域并且能夠高效地和準確地識別具有組合型歧義的歧義詞的方法和裝置。
發明內容
在下文中將給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
發明人通過研究發現,組合型歧義具有如下特點:具有組合型歧義的歧義詞在被拆分之后的詞義變化很大。另外,這種詞義上的變化可以通過其他語言,例如英語,明顯地表現出來。因此,發明人認識到可以通過考察與漢語詞對應的其它語言的譯文的變化來識別具有組合型歧義的歧義詞。也就是說,可以通過其他語言的輔助來識別具有組合型歧義的歧義詞。
根據本發明的實施例,提供了一種識別具有組合型歧義的歧義詞的方法,包括:利用核心詞表,對涉及第一語言和第二語言的平行語料庫中的第一語言句子進行粗粒度切分;利用核心詞表,在粗粒度切分后的分詞結果中檢測能夠被分解成更小粒度的多個詞的候選歧義詞,組成候選歧義詞集合;通過分解候選歧義詞,對第一語言句子進行細粒度切分;將通過粗粒度切分第一語言句子得到的粗粒度第一語言詞以及通過細粒度切分第一語言句子得到的細粒度第一語言詞分別與第一語言句子所對應的第二語言句子中的第二語言詞進行詞對齊,以從第二語言句子中分別抽取候選歧義詞的譯文、和候選歧義詞所分解成的更小粒度的多個詞的譯文;以及判斷所抽取的候選歧義詞的譯文是否出現在通過第一語言與第二語言詞典得到的候選歧義詞的所有譯文中,以及判斷所抽取的候選歧義詞所分解成的更小粒度的多個詞的譯文是否出現在通過第一語言與第二語言詞典得到的候選歧義詞所分解成的更小粒度的多個詞的所有譯文中,以確定候選歧義詞是真歧義詞還是偽歧義詞,并且確定包含候選歧義詞的第一語言句子是正例還是反例。
根據上述識別具有組合型歧義的歧義詞的方法,其中,在所抽取的候選歧義詞的譯文沒有出現在通過第一語言與第二語言詞典得到的候選歧義詞的所有譯文中、并且所抽取的候選歧義詞所分解成的更小粒度的多個詞的譯文出現在通過第一語言與第二語言詞典得到的候選歧義詞所分解成的更小粒度的多個詞的所有譯文中的情況下,將候選歧義詞確定為真歧義詞,并將包含真歧義詞的第一語言句子作為反例。
根據上述識別具有組合型歧義的歧義詞的方法,其中,在所抽取的候選歧義詞的譯文出現在通過第一語言與第二語言詞典得到的候選歧義詞的所有譯文中、并且所抽取的候選歧義詞所分解成的更小粒度的多個詞的譯文沒有出現在通過第一語言與第二語言詞典得到的候選歧義詞所分解成的更小粒度的多個詞的所有譯文中的情況下,將候選歧義詞確定為偽歧義詞,并將包含偽歧義詞的第一語言句子作為正例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210211767.X/2.html,轉載請聲明來源鉆瓜專利網。





