[發明專利]基于搜索的無詞邊界標記語言的分詞方法以及裝置無效
| 申請號: | 200710086030.9 | 申請日: | 2007-03-07 |
| 公開(公告)號: | CN101261623A | 公開(公告)日: | 2008-09-10 |
| 發明(設計)人: | 王欣靖;秦勇;劉文 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京市金杜律師事務所 | 代理人: | 馮譜 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 搜索 邊界 標記 語言 分詞 方法 以及 裝置 | ||
技術領域
本發明涉及無詞邊界標記語言的分詞技術,更具體地,本發明涉及基于搜索的無詞邊界標記語言文本的分詞方法和裝置。
背景技術
與英文以及其它的西方語言不同,許多亞洲語言,例如中文、日文、韓語以及泰語等語言沒有用空格等詞邊界標記來劃界。一個句子中會包括一串連續的字符,而在單詞之間并沒有定界符,也就是分隔符。如何界定單詞則依賴于所討論的是否為音位單詞、詞匯單詞、語形學單詞、依據造句法的單詞、語義學單詞或是心理學單詞。因此,在任何的基于單詞的語言處理中,例如在文本轉語音也即語音合成(TTS)、文檔特征提取、文檔自動摘要、文檔自動分類和中文文本檢索中,將每一個句子分詞成單詞是首要的步驟。
為了清除起見,本發明例如針對中文進行描述,但是應當理解的是,本發明的范圍并不受限于此。
中文單詞分詞技術主要需要解決中文自然語言處理(NLP)中的兩個問題,即中文中的單詞是什么以及計算機如何自動識別中文單詞。相應地,中文單詞的分詞主要涉及了兩個研究問題,單詞清晰地分界以及未知單詞的識別。而在目前大部分的系統中,這兩個問題被認為是獨立的任務因此采用了層級或是連續的方式通過不同的元件或是組件來完成。然而,由于中文單詞的一些特殊語言特性,使得中文單詞分詞主要的困難在于分詞的結果根據不同的單詞語言學定義以及不同的工程需求而有所變化。關于這一點,并沒有單一的標準使得所有的語言學家和計算機應用都滿意,也沒有能夠統一接受的標準來清晰地確定每一種語境下的單詞。例如,中文語言特別小組(SIGHAN)2005競賽(SIGHAN?Workshop?2005.www.sighan.org/bakeoff2005/)中,雖然所有的組所報告的精確度達到了百分之九十,但是訓練語料庫包含了約90,000句而測試數據集只包含了約4,400句。此外,該結果需要基于四種分詞方法(即AS,PKU,CityU和MSRA)進行單獨的比較。這為期望用于訓練多種類型NLP系統的注標語料庫的發展制造了問題,同時也對期望能夠支持多重用戶應用的中文單詞分詞系統帶來了挑戰。
目前中文單詞分詞的方法基本上可以歸類為四種:1)基于字典的方法;2)統計機器學習方法;3)基于轉換的方法;4)合并方法。
在基于字典的分詞方法中,使用了預先定義的字典以及人工產生的語法規則。在這種方法中根據字典對句子進行分詞,同時應用語法規則來進行改進?;谧值涞姆衷~方法的一種典型的技術稱為最大匹配法,該方法對所輸入的句子和字典中的條目進行比較以找出能夠匹配最多字符的條目??梢钥闯?,基于字典的分詞方法的局限性在于這種方法受限于字典的覆蓋面并且其規則缺乏穩健的統計推論。由于預先定義的字典無法列出所有的單詞也無法及時更新,因此這種方法的準確性在新單詞出現的時候會急劇降低。
統計機器學習方法是一種使用了概率或基于成本的評分機制而不是字典來對文本進行分詞的方法。目前所提出的統計機器學習方法主要有以下幾種:1)MSRSeg方法,該方法包括兩個部分,一個部分是基于線性混合模型結構的一般分詞器,該分詞器對單詞級的中文語言處理的五個特征進行統一,該五個特征為詞典單詞處理、語形學分析、數字串檢測、命名實體識別以及新單詞識別;另一個部分是一組輸出適配器,將一般分詞器的輸出適配為不同的特殊應用標準;2)使用相鄰字符的信息以接合N-gram和其相鄰字符;3)最大似然法;4)應用神經網絡的方法;5)引入中文詞匯分析器的統一基于HHMM(Hierarchical?Hidden?Markov?Model,結構化的隱馬爾可夫模型)的框架;6)從一句話中提取各種可用的特征以構建廣義的模型,并且接著基于這種模型得到各種概率模型;7)使用共有信息以及字符之間的t-評分差,這些共有信息以及字符之間的t-評分是自動從原始中文語料庫中獲得的;將有條件的隨機字段用于分詞任務。由于統計機器學習方法一般基于字符序列共現的信息來進行分析,因此這一類的方法一般要求大量的中文標注語料庫用于模型訓練,而更重要的是其缺乏靈活性以適應于不同的分詞標準。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710086030.9/2.html,轉載請聲明來源鉆瓜專利網。





