[發(fā)明專利]漢語基本名詞短語的識(shí)別及其規(guī)則的生成方法和裝置無效
| 申請(qǐng)?zhí)枺?/td> | 200710089116.7 | 申請(qǐng)日: | 2007-03-19 |
| 公開(公告)號(hào): | CN101271448A | 公開(公告)日: | 2008-09-24 |
| 發(fā)明(設(shè)計(jì))人: | 趙巖;王海峰;朱江 | 申請(qǐng)(專利權(quán))人: | 株式會(huì)社東芝 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京市中咨律師事務(wù)所 | 代理人: | 李崢;于靜 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 漢語 基本 名詞 短語 識(shí)別 及其 規(guī)則 生成 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù),具體地,涉及漢語基本名詞短語的識(shí)別規(guī)則的生成方法和裝置以及基于所生成的識(shí)別規(guī)則的漢語基本名詞短語的識(shí)別方法和系統(tǒng)。
背景技術(shù)
利用計(jì)算機(jī)處理自然語言一直是計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域的一個(gè)重要研究方向。在對(duì)自然語言的處理過程中,能否準(zhǔn)確地識(shí)別出自然語言句子中的名詞短語對(duì)于獲得整個(gè)句子的正確理解來說是至關(guān)重要的。依照認(rèn)知科學(xué)的觀點(diǎn),必須首先識(shí)別、學(xué)習(xí)和理解文本中的實(shí)體或者概念,才能很好地理解自然語言文本,而這些實(shí)體和概念大都是由文本句子中的名詞短語所描述的。因此,掌握文本中的名詞短語,是把握文本所要表達(dá)的主要意思的首要任務(wù)。
此外,在名詞短語中,還存在著基本名詞短語的概念,其是首先在英文中提出的,即Base?Noun?Phrase(BaseNP)。BaseNP在英文中定義為“簡單的非嵌套的名詞短語”,即一個(gè)BaseNP內(nèi)部不能再包含有更小的名詞短語。漢語中的基本名詞短語與英語中相似,也是由基本的詞單元組成而不包含其它的名詞短語。但是,漢語的基本名詞短語與英語中所指的又并不完全相同,如“信息檢索理論”、“企業(yè)承包合同”和“出口商品價(jià)格指數(shù)”等漢語基本名詞短語,并不完全滿足上述定義,但它們卻是漢語中重要的基本名詞短語。根據(jù)漢語的特點(diǎn),其基本名詞短語的構(gòu)成大致包括:“BaseNP+BaseNP”、“BaseNP+名詞”、“限定性定語+BaseNP”和“限定性定語+名詞”等形式。當(dāng)然,還包括專用詞匯,很多專用詞匯本身就是以短語的形式存在的。
由于基本名詞短語在自然語言中的重要地位,使得基本名詞短語的識(shí)別技術(shù)也成為自然語言處理領(lǐng)域中的一個(gè)重要研究方向。基本名詞短語識(shí)別的主要任務(wù)是根據(jù)上下文環(huán)境正確識(shí)別出基本名詞短語的左右邊界。
基本名詞短語的識(shí)別技術(shù)可以廣泛地應(yīng)用到機(jī)器翻譯(MachineTranslation)、信息檢索(Information?Retrieve)、文本分類(TextClassification)、文摘(Abstraction)、主題內(nèi)容分析和文本處理等面向用戶的應(yīng)用系統(tǒng)中。由于對(duì)于基本名詞短語的識(shí)別直接關(guān)系到文本分析和文本處理的正確性,所以改進(jìn)基本名詞短語的識(shí)別技術(shù)對(duì)于提高這些應(yīng)用系統(tǒng)的性能有較大的現(xiàn)實(shí)意義。
目前,在漢語基本名詞短語的識(shí)別中,主要采用有指導(dǎo)的統(tǒng)計(jì)學(xué)習(xí)方法。其基本思想是利用訓(xùn)練語料中的信息作為先驗(yàn)概率,來對(duì)識(shí)別語料的標(biāo)注概率作估計(jì)。由于統(tǒng)計(jì)學(xué)習(xí)方法與具體語言之間的相對(duì)獨(dú)立性,使得其成為當(dāng)前比較受關(guān)注的方法。但是,統(tǒng)計(jì)學(xué)習(xí)方法通常建立一個(gè)被數(shù)值描述的數(shù)學(xué)模型,由于這個(gè)數(shù)學(xué)模型不能被人直觀地理解,所以通常不能被進(jìn)一步地修改和擴(kuò)充。從而,在統(tǒng)計(jì)學(xué)習(xí)方法中,存在著由于不能針對(duì)于自然語言中的特殊問題來修改現(xiàn)有的數(shù)學(xué)模型、因而不能克服廣泛存在于自然語言之中的稀疏問題的現(xiàn)象。同時(shí),如果采用統(tǒng)計(jì)學(xué)習(xí)方法,則所建立的數(shù)學(xué)模型的尺寸通常會(huì)比較大,從而將會(huì)占用系統(tǒng)中比較大的內(nèi)存空間,同時(shí)將會(huì)降低系統(tǒng)識(shí)別漢語基本名詞短語的速度。
因此,需要設(shè)計(jì)出一種新的漢語基本名詞短語的識(shí)別規(guī)則的生成技術(shù)以及基于所生成的識(shí)別規(guī)則的漢語基本名詞短語的識(shí)別技術(shù),以解決這些問題。
發(fā)明內(nèi)容
本發(fā)明正是鑒于上述現(xiàn)有技術(shù)中的問題提出的,其目的在于提供一種漢語基本名詞短語的識(shí)別規(guī)則的生成方法和裝置以及基于所生成的識(shí)別規(guī)則的漢語基本名詞短語的識(shí)別方法和系統(tǒng),以便能夠生成可被進(jìn)一步修改和擴(kuò)充的漢語基本名詞短語的識(shí)別規(guī)則,并進(jìn)而利用這些識(shí)別規(guī)則來實(shí)現(xiàn)對(duì)漢語基本名詞短語的識(shí)別,同時(shí)能夠進(jìn)一步節(jié)約系統(tǒng)資源并提高識(shí)別速度。
根據(jù)本發(fā)明的一個(gè)方面,提供一種漢語基本名詞短語的識(shí)別規(guī)則的生成方法,包括:根據(jù)漢語訓(xùn)練語料創(chuàng)建關(guān)于漢語基本名詞短語的語言信息表;以及利用粗集理論對(duì)上述語言信息表進(jìn)行處理,以生成漢語基本名詞短語的識(shí)別規(guī)則集。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種漢語基本名詞短語的識(shí)別方法,包括:對(duì)待識(shí)別的漢語句子進(jìn)行分詞及詞性標(biāo)注;利用有限自動(dòng)機(jī)對(duì)上述待識(shí)別的漢語句子進(jìn)行漢語基本名詞短語的識(shí)別,以獲得漢語基本名詞短語識(shí)別結(jié)果候選;以及利用上述的漢語基本名詞短語的識(shí)別規(guī)則的生成方法所生成的漢語基本名詞短語的識(shí)別規(guī)則集對(duì)上述漢語基本名詞短語識(shí)別結(jié)果候選進(jìn)行校驗(yàn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會(huì)社東芝,未經(jīng)株式會(huì)社東芝許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710089116.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于提取最大名詞短語的裝置、方法以及電子設(shè)備
- 將權(quán)利要求書中的權(quán)利要求元件名詞所屬元件名詞對(duì)應(yīng)標(biāo)號(hào)予以對(duì)應(yīng)的對(duì)應(yīng)方法
- 英語體系名詞性結(jié)構(gòu)表達(dá)訓(xùn)練系統(tǒng)及其方法
- 一種機(jī)構(gòu)名簡稱生成方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 確定食材名詞之間的關(guān)聯(lián)度的方法、裝置、設(shè)備及介質(zhì)
- 基于雙向關(guān)聯(lián)的語義消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文景轉(zhuǎn)換中基于詞典的名詞可視性標(biāo)注方法、介質(zhì)及系統(tǒng)
- 文本語句的處理方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 用于處理信息的方法、裝置、設(shè)備和介質(zhì)
- 基于語義的關(guān)聯(lián)詞查找方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 基于組合的短語規(guī)則抽取方法
- 同義短語的挖掘方法和裝置及搜索相關(guān)內(nèi)容的方法和裝置
- 一種短語輸入方法及終端設(shè)備
- 一種電子病歷高質(zhì)短語抽取方法
- 信息提供裝置、終端裝置、信息提供系統(tǒng)以及信息提供方法
- 標(biāo)簽短語處理和相似度計(jì)算方法及裝置,電子和存儲(chǔ)設(shè)備
- 圖像描述方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于平滑短語主題模型的主題提取方法及裝置
- 在自動(dòng)化配音場(chǎng)景中實(shí)現(xiàn)短語音同步的方法和裝置





