[發(fā)明專利]漢語地名的識(shí)別方法無效
| 申請?zhí)枺?/td> | 200910236886.9 | 申請日: | 2009-11-04 |
| 公開(公告)號(hào): | CN101876975A | 公開(公告)日: | 2010-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 張全;袁毅;韋向峰;繆建明;李諾 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28;G06F17/30 |
| 代理公司: | 北京法思騰知識(shí)產(chǎn)權(quán)代理有限公司 11318 | 代理人: | 楊小蓉 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 漢語 地名 識(shí)別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語言信息處理領(lǐng)域,特別涉及漢語地名的識(shí)別方法。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以自由地獲取大量的信息。然而面對(duì)海量的信息資源,如何利用計(jì)算機(jī)自動(dòng)獲取有效的信息,無疑是充滿挑戰(zhàn)、需要探索的技術(shù)研究方向,同時(shí)也是信息時(shí)代具有應(yīng)用價(jià)值的技術(shù)。其中對(duì)于文字文本內(nèi)容的處理,則是這一技術(shù)研究的熱點(diǎn)內(nèi)容。如果能夠通過對(duì)文字文本內(nèi)容的分析處理,從中發(fā)現(xiàn)和提取相關(guān)的知識(shí)內(nèi)容,無疑將推進(jìn)信息的有效利用。
地名是描述具體事件的一個(gè)重要維度。目前在語言信息處理領(lǐng)域已經(jīng)展開研究的問答系統(tǒng)、內(nèi)容抽取、信息檢索等工作都或多或少地涉及到這一內(nèi)容的發(fā)現(xiàn)和提取。所以,如何能夠從文字文本中發(fā)現(xiàn)并提取地名信息是這些研究中的共同基礎(chǔ)技術(shù)。地名發(fā)現(xiàn)和提取同時(shí)也是機(jī)器翻譯中不可或缺的一部分。例如在漢英機(jī)器翻譯中,需要識(shí)別出源語言(漢語)中的地名,對(duì)于地名進(jìn)行音譯而不是根據(jù)字面進(jìn)行翻譯,形成可信的翻譯文本。舉例來說,對(duì)于像“和平門”這樣的地名,直接翻譯為“Hepingmen”,比翻譯成“Peace?Gate”會(huì)更易于交流和理解;如果說“和平門”這樣的地名還可以翻譯的話,那么像“德勝門”“宣武門”就很難找到英語中對(duì)應(yīng)的翻譯詞匯了,而翻譯出來的結(jié)果可能就不知所云了。因此,地名識(shí)別處理也是高質(zhì)量的機(jī)器翻譯需要的基礎(chǔ)技術(shù)。
然而中文地名的識(shí)別中存在著表述形式多樣,沒有固定格式,無法總結(jié)出較為通用的統(tǒng)一識(shí)別模板等諸多難點(diǎn)。同時(shí)由于漢語中漢字表述的特點(diǎn),組成句子的詞語之間沒有間隔,地名等專有名詞的表達(dá)也沒有特殊的標(biāo)記進(jìn)行指示(英語中有首字母大寫的指示),在不同的上下文中有著多樣的表達(dá)方式,其前后也沒有固定出現(xiàn)的可供參考的標(biāo)志詞匯。這都構(gòu)成了在實(shí)際文字文本中地名識(shí)別的困難。
在已有的中文地名識(shí)別方法中,一般研究者傾向采用統(tǒng)計(jì)模型與規(guī)則相結(jié)合的處理方法。統(tǒng)計(jì)模型一般包括最大熵模型、條件隨機(jī)場、支持向量機(jī)、隱馬爾科夫模型、N元文法、依存文法、神經(jīng)網(wǎng)絡(luò)等。這些方法多以對(duì)詞及詞性的分析為統(tǒng)計(jì)特征。
現(xiàn)有的中文地名識(shí)別方法的基本步驟包括:
1、通過對(duì)已人工標(biāo)注好的熟語料進(jìn)行訓(xùn)練,建立詞表。
2、利用詞表對(duì)待測試的文字文本進(jìn)行分詞,得到分詞結(jié)果。所得到的分詞結(jié)果中大多為第1步建立的詞表中的詞,其他為分詞碎片。分詞碎片夾雜在已分好的詞當(dāng)中,這些碎片是沒有在詞表中出現(xiàn)的未登錄詞,其中可能有需要識(shí)別的地名,也可能是簡單的無意義的字串。
3、利用統(tǒng)計(jì)方法計(jì)算訓(xùn)練語料中地名等上下文的組成概率。
4、利用統(tǒng)計(jì)方法分析分詞碎片的上下文,計(jì)算它們作為地名的概率,給出判斷的結(jié)果。
5、根據(jù)統(tǒng)計(jì)處理結(jié)果的情況制定修正規(guī)則,并使用規(guī)則對(duì)產(chǎn)生的結(jié)果進(jìn)行修正。
6、將最終結(jié)果輸出。
從上述步驟可以看出,在識(shí)別分詞碎片構(gòu)成的未登錄詞時(shí),本領(lǐng)域技術(shù)人員通常采用“統(tǒng)計(jì)與規(guī)則相結(jié)合”的方法。該方法先通過統(tǒng)計(jì)模型大規(guī)模處理數(shù)據(jù),再通過語法語義等知識(shí)制定規(guī)則修正,因而往往能夠取得比較理想的識(shí)別結(jié)果。目前這些處理方法已經(jīng)在各種利用真實(shí)語料的評(píng)測得到應(yīng)用,并且在評(píng)測中取得較好的準(zhǔn)確率和召回率。然而現(xiàn)有方法在實(shí)際應(yīng)用中仍有不足。
1、盡管是針對(duì)真實(shí)文本進(jìn)行評(píng)測,然而評(píng)測中用于訓(xùn)練的語料和評(píng)測的語料往往都具有比較強(qiáng)的相似性,因此在相關(guān)的評(píng)測中可以取得較好的評(píng)測結(jié)果。但是實(shí)際的處理中,比較難于保證訓(xùn)練文本和待處理文本之間具有較強(qiáng)的相似性,因此,處理的結(jié)果也不穩(wěn)定。如何保證處理效果的穩(wěn)定性,是地名辨識(shí)技術(shù)走向?qū)嵱玫闹匾獑栴}。
2、無論詞表的建立是否依賴于訓(xùn)練語料,上述處理方法都要對(duì)分詞碎片做再處理,而對(duì)于海量的待處理文本,對(duì)于全部文本進(jìn)行分詞處理顯然需要較大的時(shí)間開銷,因此這一處理模式在實(shí)際應(yīng)用中急待改觀以真正適應(yīng)面向海量文字文本的自動(dòng)處理。
3、這些方法在處理過程中,主要使用的是文字文本的表層信息,即詞語的詞形信息,或者詞語的詞性信息,還缺乏對(duì)于語義信息利用的手段。漢語中的詞語常常出現(xiàn)詞性兼類的現(xiàn)象,而詞形信息也經(jīng)常并不穩(wěn)定。因此,如何使用文字文本的語義信息改善地名的識(shí)別也是地名處理實(shí)用中一個(gè)需要突破的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的漢語地名識(shí)別方法識(shí)別結(jié)果不穩(wěn)定、識(shí)別過程所需開銷大、缺乏對(duì)語義信息的利用等缺陷,從而提供一種識(shí)別結(jié)果穩(wěn)定、識(shí)別開銷小的漢語地名識(shí)別方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種漢語地名的識(shí)別方法,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910236886.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





