[發(fā)明專利]中文斷詞法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 00136724.2 | 申請(qǐng)日: | 2000-12-21 |
| 公開(kāi)(公告)號(hào): | CN1360302A | 公開(kāi)(公告)日: | 2002-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 楊立偉 | 申請(qǐng)(專利權(quán))人: | 意藍(lán)科技股份有限公司 |
| 主分類號(hào): | G10L17/00 | 分類號(hào): | G10L17/00 |
| 代理公司: | 北京紀(jì)凱知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 程偉 |
| 地址: | 中國(guó)*** | 國(guó)省代碼: | 臺(tái)灣;71 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 詞法 | ||
本發(fā)明是一種斷詞法,尤指一種中文斷詞法。????
英文的字匯是由多個(gè)單一的字母所組成而有其特定的含意,字匯的前后再加上任何一個(gè)或多個(gè)字母往往就代表不同的意思,甚至不成字匯而為繆誤。在英文文件中每一個(gè)英文字匯與英文字匯之間都留有空白,即前一個(gè)英文字匯的最后一個(gè)字母與后一個(gè)英文字匯的最前一個(gè)字母間是留有空白,借著這些空白的分隔,可以輕易地在由大長(zhǎng)串字母所組成的文句中,將一群字母一群字母做分割,成為表達(dá)文義所需的字匯,而不會(huì)錯(cuò)把其他在該正確字匯前后的字母歸在一起,而形成其他或錯(cuò)誤字匯,進(jìn)而影響文句的判讀。因此,一般的英文文件沒(méi)有分割字匯的問(wèn)題。然而,在中文文件中,因?yàn)榍耙粋€(gè)中文詞匯的最后一個(gè)字元與后一個(gè)中文詞匯的最前一個(gè)字元之間并沒(méi)有任何分隔符號(hào)可資辨認(rèn),因此無(wú)法正確地將文句中的字元切割,形成文義所指的詞匯,造成文句判讀上的錯(cuò)誤。
中文斷詞是指將由成串字元所組成的中文文句進(jìn)行一組組的切割,使文句被初割成許多有意義的詞匯。在許多中文語(yǔ)言處理的應(yīng)用上,例如:中文文字校正、中文文件翻譯等,都必須要先經(jīng)過(guò)中文斷詞后,取得正確的中文詞匯,才能夠做進(jìn)一步處理。
然而,中文斷詞問(wèn)題的困難處在于中文詞匯的歧義性問(wèn)題,其乃因?yàn)閷⒅形奈木湟圆煌姆绞竭M(jìn)行切割,所產(chǎn)生的詞匯都是有意義的,但不見(jiàn)得是文句所指的正確詞匯。例如:一中文文句「我國(guó)代表現(xiàn)在正面臨時(shí)間上的壓力」,經(jīng)過(guò)中文斷詞后,產(chǎn)生的斷詞方式可能為「我|國(guó)代|表現(xiàn)|在|正面|臨時(shí)|間|上|的|壓力」、「我|國(guó)|代表|現(xiàn)在|正面|臨時(shí)|間|上|的|壓力」、「我|國(guó)代|表現(xiàn)|在|正|面臨|時(shí)間|上|的|壓力」、「我|國(guó)|代表|現(xiàn)在|正|面臨|時(shí)間|上|的|壓力」等數(shù)種。若是單看每一個(gè)斷詞方式中的各個(gè)詞匯,每個(gè)詞匯均是有意義的;但是若以整個(gè)中文文句的意思來(lái)看,只有最后一個(gè)斷詞方式,也就是「我|國(guó)|代表|現(xiàn)在|正|面臨|時(shí)間|上|的|壓力」,是會(huì)符合文義的正確斷詞方式。由于這種歧義性的問(wèn)題,因此在中文斷詞中,如何在這么多種的斷詞方式中,挑選出符合文義的正確斷詞方式,遂成為一個(gè)中文斷詞法的關(guān)鍵。
以往所常用的中文斷詞法為長(zhǎng)詞優(yōu)先斷詞法,其是將中文文句由前往后進(jìn)行切割,優(yōu)先找出符合主辭典中最長(zhǎng)的詞匯。請(qǐng)參閱圖1所示,其是為現(xiàn)有長(zhǎng)詞優(yōu)先斷詞法的流程圖?,F(xiàn)有的長(zhǎng)詞優(yōu)先斷詞法,其是先輸入一由許多連續(xù)字元2’所組成的待斷詞文句1’,將待斷詞文句1’由前開(kāi)始與主辭典3’中的所有詞匯4’依詞匯長(zhǎng)度由大至小進(jìn)行對(duì)比,尋找主辭典3’中與待斷詞文句1’前部分完全相同的詞匯長(zhǎng)度最大者;再將該詞匯4’記為斷詞方式的一部分,并移至該詞匯4’的下一個(gè)字元2’,進(jìn)行下一步的對(duì)比,直到待斷詞文句1’的最末一個(gè)字元,結(jié)束文句的斷詞。
上述的長(zhǎng)詞優(yōu)先斷詞法主要有兩大缺點(diǎn):一為搶詞問(wèn)題,另一為缺詞問(wèn)題。首先說(shuō)明搶詞問(wèn)題,搶詞問(wèn)題源自于中文斷詞的歧義性問(wèn)題,因?yàn)殚L(zhǎng)詞優(yōu)先斷詞法是將中文文句由前往后依符合主辭典中最長(zhǎng)的詞匯進(jìn)行斷詞工作,所以極有可能發(fā)生槍詞問(wèn)題,也就是前面錯(cuò)誤的詞匯搶了后面正確詞匯的前面字元,錯(cuò)把后一個(gè)詞匯的前面字元?dú)w在前一個(gè)詞匯中。例如:待斷詞的中文文句為「我正面向臺(tái)北市民大道」,其中「正」、「面」、「向」這三個(gè)字元的正確斷詞方式應(yīng)該為「正」、「面向」。然而使用長(zhǎng)詞優(yōu)先斷詞法,是將該文句由前往后依符合主辭典中最長(zhǎng)的詞匯進(jìn)行斷詞工作時(shí),其首先會(huì)找到「正面」這個(gè)詞匯,而把「正」及「面」二個(gè)字元視為一個(gè)詞匯進(jìn)行切割,而留下「向」這個(gè)字元,其切割結(jié)果為「正面」、「向」,與文義不符,即「正面」一詞搶了「面向」一詞的形成,所以產(chǎn)生謬誤。同理,「臺(tái)北市民大道」這幾個(gè)字元如果利用長(zhǎng)詞優(yōu)先斷詞法,則將被分割成「臺(tái)北市」、「民大道」,而非「臺(tái)北」、「市民大道」,詞匯「臺(tái)北市」將搶了詞匯「市民大道」的前一個(gè)字元。以上就是長(zhǎng)詞優(yōu)先斷詞法的搶詞問(wèn)題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于意藍(lán)科技股份有限公司,未經(jīng)意藍(lán)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00136724.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)
- 基于人工智能分類語(yǔ)音輸入文本的方法和裝置
- 一種廣告素材數(shù)據(jù)生成方法、裝置及系統(tǒng)
- 網(wǎng)管系統(tǒng)北向監(jiān)控訂購(gòu)?fù)ㄖ^(guò)濾方法
- 詞法分析模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 一種驗(yàn)證方法、裝置和存儲(chǔ)介質(zhì)
- 解碼方法、語(yǔ)音識(shí)別設(shè)備和系統(tǒng)
- 一種面向神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的英文詞法分析方法及系統(tǒng)
- 用于確定輸出詞法單元的方法和設(shè)備
- 基于Bi-LSTM-CRF的三位一體字標(biāo)注漢語(yǔ)詞法分析方法





