[發(fā)明專利]基于語(yǔ)義相關(guān)的XML文檔關(guān)鍵字檢索排序方法有效
| 申請(qǐng)?zhí)枺?/td> | 201110007177.0 | 申請(qǐng)日: | 2011-01-13 |
| 公開(kāi)(公告)號(hào): | CN102081660A | 公開(kāi)(公告)日: | 2011-06-01 |
| 發(fā)明(設(shè)計(jì))人: | 陳群;王鵬;婁穎;崔海文;李霞;張立軍;李戰(zhàn)懷 | 申請(qǐng)(專利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 西北工業(yè)大學(xué)專利中心 61204 | 代理人: | 顧潮琪 |
| 地址: | 710072 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語(yǔ)義 相關(guān) xml 文檔 關(guān)鍵字 檢索 排序 方法 | ||
1.一種基于語(yǔ)義相關(guān)的XML文檔關(guān)鍵字檢索排序方法,其特征在于包括下述步驟:
1)采用有序標(biāo)簽樹(shù)模型作為XML文檔模型,采用深度優(yōu)先法遍歷樹(shù)模型,解析XML文檔,采用Porter?Stemming算法對(duì)全部單詞進(jìn)行歸根處理,確定所有主題節(jié)點(diǎn),使用Dewey編碼的方式對(duì)主題進(jìn)行編碼;所述的主題節(jié)點(diǎn)是以其為根的樹(shù)中包含以另外一個(gè)節(jié)點(diǎn)為根的子樹(shù)的節(jié)點(diǎn);
2)計(jì)算主題節(jié)點(diǎn)與屬性節(jié)點(diǎn)的語(yǔ)義相關(guān)度、屬性節(jié)點(diǎn)與關(guān)鍵字的語(yǔ)義相關(guān)度,
所述的屬性節(jié)點(diǎn)是以其為根的子樹(shù)只包含文本內(nèi)容的節(jié)點(diǎn),計(jì)算方法如下:
主題節(jié)點(diǎn)與屬性節(jié)點(diǎn)的語(yǔ)意相關(guān)度用他們之間的距離的倒數(shù)來(lái)表示,屬性節(jié)點(diǎn)與關(guān)鍵字的語(yǔ)義相關(guān)度其中perc(k,er)表示在以er為根節(jié)點(diǎn)的XML樹(shù)中以La為標(biāo)簽的屬性中包含關(guān)鍵字k的比例,freq(La)表示以er為標(biāo)簽的所有XML子樹(shù)中包含以La為標(biāo)簽的屬性的個(gè)數(shù),freq(k,La)表示以er為標(biāo)簽的所有XML子樹(shù)中包含以La為標(biāo)簽的屬性的個(gè)數(shù),并且該屬性包含關(guān)鍵字k;
3)將關(guān)鍵字對(duì)應(yīng)的最低主題節(jié)點(diǎn)位置信息和步驟2)所計(jì)算出的主題節(jié)點(diǎn)與屬性節(jié)點(diǎn)以及屬性節(jié)點(diǎn)與關(guān)鍵字的語(yǔ)意相關(guān)度封裝在一起保存在倒排索引中,并對(duì)位置信息中的Dewey碼建立B+樹(shù)索引,通過(guò)該索引結(jié)構(gòu)優(yōu)化檢索時(shí)間;
4)用戶輸入查詢關(guān)鍵字,對(duì)所輸入的查詢關(guān)鍵字采用Porter?Stemming算法進(jìn)行單詞歸根處理;
5)在倒排索引中取出關(guān)鍵字對(duì)應(yīng)的主題節(jié)點(diǎn)信息以及相關(guān)度信息,關(guān)鍵字的倒排索引中保存包含這個(gè)關(guān)鍵字的一系列主題位置,以及關(guān)鍵字與屬性節(jié)點(diǎn)、屬性節(jié)點(diǎn)與主題節(jié)點(diǎn)的語(yǔ)意相關(guān)度,倒排表按照包含這個(gè)節(jié)點(diǎn)的最低主題節(jié)點(diǎn)的Dewey碼LED排序,如果一個(gè)節(jié)點(diǎn)是屬性節(jié)點(diǎn),那么它的LED為其父節(jié)點(diǎn)的Dewey碼;
6)對(duì)距離關(guān)鍵字最近的主題進(jìn)行檢索,如果一個(gè)LED包含了所有的關(guān)鍵字,那么這個(gè)LED將被作為一個(gè)結(jié)果計(jì)算其相關(guān)度,計(jì)算方法如下:k表示返回屬性關(guān)鍵字,sc(k′,La)表示查詢條件,k′表示條件值關(guān)鍵字,La表示條件屬性關(guān)鍵字;如果一個(gè)LED沒(méi)有包含所有的關(guān)鍵字,那么將該LED的父節(jié)點(diǎn)加入到查詢隊(duì)列中;
7)對(duì)檢索結(jié)果進(jìn)行相關(guān)度從高到低排序,當(dāng)檢索完所有結(jié)果或者達(dá)到用戶要求的K個(gè)結(jié)果時(shí)算法結(jié)束,并輸出結(jié)果;
8)對(duì)距離關(guān)鍵字次近的主題進(jìn)行檢索,重復(fù)步驟6)和步驟7);
9)根據(jù)結(jié)果的Dewey碼返回信息片段給用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110007177.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:擺頭切削裝置
- 下一篇:可拆卸式多功能一體鍋
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- Java中的XML類型
- 數(shù)據(jù)庫(kù)中XML模式的原地演進(jìn)
- 在標(biāo)記語(yǔ)言環(huán)境中使用可撤消命令來(lái)編輯文檔的文檔處理和管理方法
- XML文檔管理系統(tǒng)及其方法與XML文檔訪問(wèn)控制方法
- 用于處理用于在XML數(shù)據(jù)庫(kù)中存儲(chǔ)的非XML文檔的方法和系統(tǒng)
- 一種XML元數(shù)據(jù)對(duì)象化解析方法及系統(tǒng)
- 一種XML信息獲取方法和系統(tǒng)
- 將XML文檔自動(dòng)轉(zhuǎn)化為OML文檔的轉(zhuǎn)換方法及裝置
- XML數(shù)據(jù)的處理方法和裝置
- 一種XML注入漏洞檢測(cè)與防御方法





