[發(fā)明專利]基于旅游業(yè)特征詞庫(kù)的中文分詞方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201010287533.4 | 申請(qǐng)日: | 2010-09-20 |
| 公開(kāi)(公告)號(hào): | CN102411568A | 公開(kāi)(公告)日: | 2012-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 吳志祥;張海龍;馬和平;王專;吳劍;郭鳳林;靳彩娟 | 申請(qǐng)(專利權(quán))人: | 蘇州同程旅游網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 陳忠輝 |
| 地址: | 215123 江蘇省蘇州*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 旅游業(yè) 特征 詞庫(kù) 中文 分詞 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種中文分詞方法,尤其涉及一種基于旅游業(yè)特征詞庫(kù)的中文分詞方法。
背景技術(shù)
伴隨信息的快速增長(zhǎng),人們想準(zhǔn)確找到對(duì)自己有用的信息變得很困難,使搜索引擎成為人們查找信息的首選工具,谷歌、百度是大家共知的全文搜索引擎。隨著搜索市場(chǎng)價(jià)值的不斷增加,人們對(duì)信息準(zhǔn)確性、實(shí)用性的要求越來(lái)越高,全文搜索引擎已經(jīng)不能滿足人們的需求,隨之而來(lái)的垂直搜索引擎越來(lái)越受到人們的喜愛(ài),垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:酒店搜索、旅游搜索、火車票搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。目前在中文搜索引擎領(lǐng)域,國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語(yǔ)言自身的書(shū)寫(xiě)方式不同,這其中對(duì)于計(jì)算機(jī)涉及的就是中文分詞技術(shù)。
什么是中文分詞
英文是以詞為單位的,詞和詞之間是靠空格隔開(kāi),而中文是以字為單位,句子中所有的字連起來(lái)才能描述一個(gè)意思。例如,英文句子I?am?astudent,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過(guò)空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來(lái)才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我/是/一個(gè)/學(xué)生。
中文分詞和搜索引擎
中文分詞到底對(duì)搜索引擎有多大影響?對(duì)于搜索引擎來(lái)說(shuō),最重要的并不是找到所有結(jié)果,因?yàn)樵诖髷?shù)據(jù)量下面所有結(jié)果沒(méi)有太多的意義,沒(méi)有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,展示給用戶,這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。
中文分詞技術(shù)
中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)范疇,對(duì)于一句話,人可以通過(guò)自己的知識(shí)來(lái)明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過(guò)程就是分詞算法。
現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
1、基于字符串匹配的分詞方法
這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將要分析的漢字串與一個(gè)“充分大的”機(jī)器詞庫(kù)中的詞語(yǔ)進(jìn)行匹配,若在詞庫(kù)中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配。常用的幾種機(jī)械分詞方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數(shù)最小)。
2、基于理解的分詞方法
這種分詞方法是通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。
3、基于統(tǒng)計(jì)的分詞方法
詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞庫(kù),因而又叫做無(wú)詞庫(kù)分詞法或統(tǒng)計(jì)取詞方法。
分詞中的難題
1、歧義識(shí)別
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語(yǔ)就可以分成“表面的”和“表面的”。這種稱為交叉歧義。
交叉歧義相對(duì)組合歧義來(lái)說(shuō)是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來(lái)判斷了。例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開(kāi)”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州同程旅游網(wǎng)絡(luò)科技有限公司,未經(jīng)蘇州同程旅游網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010287533.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用戶詞庫(kù)管理系統(tǒng)和管理方法
- 一種分類詞庫(kù)系統(tǒng)及其更新和維護(hù)方法、以及客戶端
- 詞庫(kù)替換方法、裝置及輸入法系統(tǒng)
- 一種基于位置的輸入法詞庫(kù)管理系統(tǒng)及方法
- 詞庫(kù)、詞庫(kù)的處理方法、裝置和用于處理詞庫(kù)的裝置
- 一種詞庫(kù)更新方法及裝置
- 一種詞庫(kù)的生成方法、裝置、終端設(shè)備和服務(wù)器
- 用于語(yǔ)音對(duì)話平臺(tái)的詞庫(kù)管理方法和系統(tǒng)
- 一種詞庫(kù)維護(hù)管理方法、裝置
- 一種詞庫(kù)構(gòu)建方法及計(jì)算設(shè)備





