[發(fā)明專利]漢語(yǔ)地名的識(shí)別方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200910236886.9 | 申請(qǐng)日: | 2009-11-04 |
| 公開(kāi)(公告)號(hào): | CN101876975A | 公開(kāi)(公告)日: | 2010-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 張全;袁毅;韋向峰;繆建明;李諾 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院聲學(xué)研究所 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28;G06F17/30 |
| 代理公司: | 北京法思騰知識(shí)產(chǎn)權(quán)代理有限公司 11318 | 代理人: | 楊小蓉 |
| 地址: | 100190 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 漢語(yǔ) 地名 識(shí)別 方法 | ||
1.一種漢語(yǔ)地名的識(shí)別方法,包括:
步驟1)、讀入待處理的漢語(yǔ)文本以及候選地名識(shí)別所需的計(jì)算參數(shù);其中,所述的候選地名識(shí)別所需的計(jì)算參數(shù)包括:地名尾字字表、漢字出現(xiàn)概率、未出現(xiàn)的兩字組出現(xiàn)頻次期望值、地名中兩字組的條件概率值、地名的首字和尾字條件概率、歸一化因子以及門(mén)限值;
步驟2)、對(duì)待處理的漢語(yǔ)文本中的各個(gè)語(yǔ)句,根據(jù)地名尾字字表找出語(yǔ)句中的地名尾字,然后以地名尾字為基礎(chǔ),計(jì)算地名尾字前若干個(gè)字符所組成的字符串為候選地名的分?jǐn)?shù)值,根據(jù)該分?jǐn)?shù)值與所述門(mén)限值間的比較結(jié)果,確定所述字符串是否為所在語(yǔ)句中的候選地名;對(duì)包含候選地名的語(yǔ)句做分詞處理,標(biāo)注出分詞后所得到的詞語(yǔ)的概念屬性;
步驟3)、讀入對(duì)候選地名做細(xì)化計(jì)算所需要的參數(shù),所述參數(shù)包括用于表示詞語(yǔ)的各個(gè)概念類別在確認(rèn)候選地名時(shí)的權(quán)重因子λi以及用于表示認(rèn)可候選地名為地名時(shí)的置信門(mén)限值PT;
步驟4)、對(duì)待處理的漢語(yǔ)文本中的各個(gè)語(yǔ)句,根據(jù)步驟2)的結(jié)果得到語(yǔ)句中的候選地名以及詞語(yǔ)的概念屬性,然后利用所述的參數(shù)λi計(jì)算所述候選地名的細(xì)化處理分?jǐn)?shù)值,將所得到的細(xì)化處理分?jǐn)?shù)值與所述門(mén)限值PT加以比較,根據(jù)比較結(jié)果確定候選地名是否為真正的地名。
2.根據(jù)權(quán)利要求1所述的漢語(yǔ)地名的識(shí)別方法,其特征在于,在所述的步驟2)之后還包括步驟2100):
利用語(yǔ)言規(guī)則對(duì)已經(jīng)得到的候選地名加以過(guò)濾。
3.根據(jù)權(quán)利要求1或2所述的漢語(yǔ)地名的識(shí)別方法,其特征在于,所述的步驟2)包括:
步驟201)、從待處理的漢語(yǔ)文本中讀取一尚未處理的語(yǔ)句;
步驟202)、根據(jù)所述的地名尾字字表在所述的待處理的語(yǔ)句中檢測(cè)是否有地名尾字出現(xiàn);
步驟203)、如果出現(xiàn)了地名尾字,就執(zhí)行后續(xù)步驟,否則就重新執(zhí)行前面的步驟201);
步驟204)、由所述的尾字條件概率得到已發(fā)現(xiàn)的地名尾字CF的條件概率值P(尾字|CF),將該值除以所述的歸一化因子得到當(dāng)前候選地名字串的歸一化分?jǐn)?shù)值G*h,其中,G*h=P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh,h表示地名的長(zhǎng)度,P(Ch|Ch-1)表示在Ch-1出現(xiàn)的條件下Ch出現(xiàn)的概率,P(尾字|Ch)表示Ch出現(xiàn)地名尾字的概率,λ表示歸一化因子;
步驟205)、計(jì)算以當(dāng)前候選地名字串當(dāng)前的首字為地名首字的歸一化候選地名分?jǐn)?shù)Gh,其中,Gh=P(C1|首字)P(C2|C1)…P(Ch|Ch-1)P(尾字|Ch)/λh+1,P(C1|首字)表示C1作為地名首字的概率;
步驟206)、如果所得到的分?jǐn)?shù)值Gh大于或等于門(mén)限值GT,則將候選地名字串記錄為候選地名后執(zhí)行下一步,否則,直接執(zhí)行下一步;
步驟207)、判斷當(dāng)前處理的字串前是否有漢字,如果是,執(zhí)行下一步,否則,執(zhí)行步驟209);
步驟208)、計(jì)算增加這個(gè)字后的歸一化候選地名字串的分?jǐn)?shù)值G*h+1,判斷該分?jǐn)?shù)值是否大于原來(lái)的歸一化候選地名字串的分?jǐn)?shù)值G*h,若大于則在當(dāng)前候選地名字串中增加一字作為當(dāng)前值,然后刷新當(dāng)前候選地名字串的分?jǐn)?shù)值,否則執(zhí)行下一步;
步驟209)、判斷句子中是否有候選地名,若存在,對(duì)句子做分詞處理,標(biāo)注詞語(yǔ)對(duì)應(yīng)的概念屬性后執(zhí)行下一步,否則,直接執(zhí)行下一步;
步驟210)、對(duì)待處理的漢語(yǔ)文本中的未處理語(yǔ)句重新執(zhí)行上述步驟201)-步驟209),直到完成對(duì)文本中所有語(yǔ)句的處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院聲學(xué)研究所,未經(jīng)中國(guó)科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910236886.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 現(xiàn)代漢語(yǔ)信息全息拉丁化漢語(yǔ)語(yǔ)音碼表示法
- 漢字漢語(yǔ)拼音與漢語(yǔ)語(yǔ)音碼雙向可逆轉(zhuǎn)換方法
- 漢語(yǔ)語(yǔ)音碼漢語(yǔ)語(yǔ)音識(shí)別方法
- 一種計(jì)算機(jī)輸入中文的方法
- 漢語(yǔ)語(yǔ)音碼全拼和簡(jiǎn)拼漢語(yǔ)全息信息處理方法
- 一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)元音發(fā)音方法
- 一種非漢語(yǔ)語(yǔ)音識(shí)別方法、系統(tǒng)及其構(gòu)造方法
- 一種古漢語(yǔ)語(yǔ)義分析方法及其系統(tǒng)
- 漢語(yǔ)定向接龍的查詢方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 漢語(yǔ)友聲聲數(shù)系統(tǒng)的技術(shù)方法
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





