[發(fā)明專利]中文信息檢索中基于結(jié)構(gòu)約束的索引詞權(quán)重計(jì)算方法有效
| 申請(qǐng)?zhí)枺?/td> | 200810095689.5 | 申請(qǐng)日: | 2008-05-07 |
| 公開(公告)號(hào): | CN101576888A | 公開(公告)日: | 2009-11-11 |
| 發(fā)明(設(shè)計(jì))人: | 陸永邦 | 申請(qǐng)(專利權(quán))人: | 香港理工大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 隆天國際知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 郭曉東 |
| 地址: | 中國香港*** | 國省代碼: | 中國香港;81 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 信息 檢索 基于 結(jié)構(gòu) 約束 索引 權(quán)重 計(jì)算方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種中文信息檢索技術(shù),特別涉及一種中文信息檢索中基于結(jié)構(gòu)約束的索引詞權(quán)重計(jì)算方法。
背景技術(shù)
由于因特網(wǎng)的普及,大量的信息迅速積累并廣泛地被使用。因此,時(shí)空距離遠(yuǎn)近不再是人們存取與使用信息的最大障礙,取而代之的問題是缺乏有效率的方式在浩瀚的因特網(wǎng)海量信息中尋找想要的信息。信息檢索技術(shù)(information?retrieval?technologies)因?yàn)槟軌蛱峁┦褂谜弑憬莸姆绞饺ゴ嫒∨c使用想要的信息,因此在近幾年來格外地受到重視。
搜索引擎(Search?Engine)是基于信息檢索技術(shù)來實(shí)現(xiàn)的,搜索引擎的重要功能就是對(duì)文本信息提供檢索,中文信息檢索技術(shù)中至關(guān)重要的環(huán)節(jié)是索引構(gòu)建,而索引的構(gòu)建離不開索引詞(index?term)的權(quán)重計(jì)算。
在進(jìn)行索引詞的權(quán)重計(jì)算之前,需要對(duì)中文查詢進(jìn)行結(jié)構(gòu)化處理。請(qǐng)參閱圖1所示,其為現(xiàn)有技術(shù)中對(duì)查詢進(jìn)行結(jié)構(gòu)化的流程圖。其中,D1為要進(jìn)行的查詢,例如該查詢是一個(gè)句子,步驟M1對(duì)該查詢進(jìn)行分詞;步驟M2將切分出的詞進(jìn)行詞性標(biāo)注;步驟M3對(duì)該查詢進(jìn)行淺層句法分析;步驟M4對(duì)該查詢進(jìn)行進(jìn)一步的句法分析,最后得到結(jié)構(gòu)化查詢D2,D2中包含上述結(jié)構(gòu)化處理M1、M2、M3及M4的結(jié)果,例如為句子的各句法成分、切分出的各個(gè)詞、對(duì)各個(gè)詞的詞性標(biāo)注、各個(gè)詞的語義特征等。
上述處理步驟M1、M2、M3及M4是形成結(jié)構(gòu)化查詢的現(xiàn)有方法。對(duì)中文查詢進(jìn)行結(jié)構(gòu)化處理,可選擇其中一個(gè)或幾個(gè)步驟,但至少需要其中一個(gè)步驟。
下面詳細(xì)描述對(duì)查詢進(jìn)行結(jié)構(gòu)化的過程。令q為一個(gè)中文查詢(即圖1中的D1)。在步驟M1中,q被分詞算法(例如正向最大匹配法,逆向最大匹配法,正向-逆向最大匹配法)分為m個(gè)字符串組,q=p1,p2…pi…pm,其中這些字符串組是連續(xù)的。pi是q中的子字符串組。令pi=[(qi,1,ti,1),...(qi,j,ti,j)...,(qi,n,ti,n);Ti],其中qi,j是已識(shí)別的查詢子字符串,其與給定的詞列表W(例如詞典)中的一些詞條匹配,ti,j例如為qi,j的詞性標(biāo)注(或一些語義特征)(由圖1中步驟M2處理),Ti是該子字符串組的句法成分(由圖1中的步驟M3和步驟M4處理),句法分析所得到的句法成分例如為名詞短語或者為介詞短語。因此,查詢q可被處理成(1)式格式,圖1中的D2便可為此(1)式格式:
[(q1,1,t1,1),(q1,2,t1,2),...,(q1,n,t1,n),T1],...[(qm,1,tm,1),(qm,2,tm,2),...,(qm,n,tm,p),Tm]??(1)
其中q是由下列子字符串組成q1,1,q1,2…q1,n…qm,1,qm,2,…qm,n。一個(gè)字符串組也可被嵌入另一個(gè)字符串組形成一個(gè)字符串組的嵌套結(jié)構(gòu)。例如,下面就是嵌套字符串組結(jié)構(gòu)(圖1中D2可能的格式):
[(q1,1,t1,1),[(q1,2,t1,2),(q1,n,t1,n),T2],T1]
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于香港理工大學(xué),未經(jīng)香港理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810095689.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





