[發明專利]基于改進最大匹配算法的交叉型偽歧義識別方法無效
| 申請號: | 201210050154.2 | 申請日: | 2012-02-24 |
| 公開(公告)號: | CN102622339A | 公開(公告)日: | 2012-08-01 |
| 發明(設計)人: | 周俊;鄭中華;張煒 | 申請(專利權)人: | 安徽博約信息科技有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230000 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 最大 匹配 算法 交叉 歧義 識別 方法 | ||
[技術領域]
本發明涉及漢語自動分詞算法技術,尤其涉及一種基于改進最大匹配算法的交叉型偽歧義識別方法。
[背景技術]
人工智能(Artificial?Intelligence,AI)已經不再是鮮為人知的名詞,從初步提出到現在,經過五十多年的研究發展,已經在機械制造、信息控制、航空航天以及仿生學等各學科領域得到廣泛的應用。自然語言理解(Natural?Language?Processing,NLP)即是人工智能的一項重要分支,也是實現人工智能技術其他分支領域的重要基礎,如專家系統的知識學習、控制領域的語音控制、搜索引擎的智能搜索等等,都以NLP為分析基礎,因此NLP是一項在人工智能領域具有重大研究意義的技術課題。
根據自然語言的類別不同,自然語言理解分為多個研究方向,其中最主要的包括英語自然語言理解與漢語自然語言理解,英語自然語言理解相對于漢語自然語言理解要容易的多,因為英文語句本身就是由具有完整語義的最小單元(即英語單詞)組成,而漢語語句是由連續的漢字組成,單個漢字并不具有表達完整語義的能力,漢語中具有完整語義的最小單元是詞條,因此,在漢語語句的語義理解之前,需要將由連續漢字組成的漢語語句切分成詞條的集合,以作為漢語自然語言理解的數據基礎,這一過程稱為漢語分詞。漢語分詞是漢語自然語言理解的基礎步驟,也是關鍵一步。
漢語分詞過程中的主要難點之一就是歧義識別。所謂歧義識別,是指在漢語分詞過程中檢測出輸入漢語語句中存在的所有歧義并加以消解的過程,包括歧義檢測和歧義消解兩項關鍵技術。歧義檢測是在輸入語句中定位歧義,如果該語句中存在歧義;歧義消解則是對已定位的歧義進行消解,并輸出消解結果,即歧義的正確切分路徑。
由于漢語語言的靈活性,歧義也具有多樣性,不同類別的歧義,需要采用不同的方法進行歧義檢測和消解。根據歧義本身是否是詞條,可將歧義分為組合型歧義和交叉型歧義兩類,組合型歧義是指歧義本身就是一個漢語詞條,如“懂高科技的人才能解決這個問題”,“人才”是分詞歧義,即可分為“人”和“才”兩個詞條,也可看成“人才”一個詞條,歧義本身是一個詞條,因此“人才”是組合型歧義;交叉型歧義可理解為歧義本身不是一個詞條的歧義,如上例“該廠的技術和服務都是一流”,分詞歧義“和服務”不是一個詞條,故屬于交叉型歧義。根據歧義正確分詞方式的數目,可將其分為真歧義和偽歧義兩類,真歧義是指歧義可能具有兩種或兩種以上正確切分方式的歧義,如歧義“中國家居”,在語句“發展中國家居事業”中切分為“中國”和“家居”兩個詞條,而在語句“發展中國家居世界中等水平”中應分為“中”、“國家”和“居”三個詞條;偽歧義是指在任何語境下都只有一種正確切分方式的歧義,如歧義“案發現場”,在任何語境下都會切分為“案發”和“現場”兩個詞條,而不會切分成“案”、“發現”和“場”三個詞。顯然,組合型歧義全部屬于真歧義。
根據大規模流通語料庫的統計顯示,交叉型歧義占所有歧義中得90%以上,而在所有交集型歧義中,交叉型偽歧義(下文簡稱偽歧義)占一半以上的比例。因此,偽歧義是最常見的漢語分詞歧義。
現有技術一的技術方案
基于記憶的偽歧義識別方法在偽歧義識別中應用較廣,該方法主要利用偽歧義具有唯一正確切分路徑的性質,通過對大規模語料庫的統計,得到所有交叉型歧義,然后過濾交叉型真歧義,得到偽歧義集合,最后將所有偽歧義收錄于偽歧義詞表,在漢語分詞時通過偽歧義詞表查找匹配漢語語句以實現歧義檢測,對檢測出的偽歧義直接通過查詢偽歧義詞表獲取消解方案。該方法識別準確率高,而且原理簡單,操作容易,但是歧義檢測和歧義消解都完全依賴于偽歧義詞表,受偽歧義詞表規模影響很大,故而召回率不高。該技術方案簡要執行流程圖如圖3所示。
現有技術一的缺點:
1,統計語料庫無法包含所有的交叉偽歧義,因此偽歧義詞表不可能收錄所有的偽歧義,故而該技術在歧義檢測時無法保證檢測出所有的偽歧義,最終造成偽歧義的檢測遺漏,并導致偽歧義的識別召回率較低;
2,某種交叉型真歧義在統計語料庫中可能只出現一種切分路徑,從而容易誤被處理為偽歧義而收錄于偽歧義詞表,最后造成歧義的識別錯誤,這是限制該方案準確率上升的根本原因,而且也很難做到完全消除;
3,歧義的識別方式較機械化,完全不能識別未被偽歧義詞表收錄的偽歧義,識別召回率受偽歧義詞表的規模影響很大,因此需要不斷更新和維護偽歧義詞表,以收錄更多的偽歧義,擴大偽歧義詞表的規模,以盡可能提高偽歧義識別的召回率。
現有技術二的技術方案
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽博約信息科技有限責任公司,未經安徽博約信息科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210050154.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于微缺陷的激光超聲檢測方法
- 下一篇:船閘自動防淤廊道系統





