[發(fā)明專利]一種基于查詢結(jié)果的語義相關(guān)度計(jì)算方法無效
| 申請(qǐng)?zhí)枺?/td> | 201110123276.5 | 申請(qǐng)日: | 2011-05-12 |
| 公開(公告)號(hào): | CN102184233A | 公開(公告)日: | 2011-09-14 |
| 發(fā)明(設(shè)計(jì))人: | 方俊;郭雷;常威威 | 申請(qǐng)(專利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 西北工業(yè)大學(xué)專利中心 61204 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 查詢 結(jié)果 語義 相關(guān) 計(jì)算方法 | ||
1.一種基于查詢結(jié)果的語義相關(guān)度計(jì)算方法,其特征在于步驟如下:
步驟一:利用檢索系統(tǒng)獲取兩個(gè)詞t1和t2的統(tǒng)計(jì)信息和內(nèi)容信息,所述的統(tǒng)計(jì)信息就是采用檢索系統(tǒng)的編程接口分別檢索詞t1、t2和t1?AND?t2,返回的對(duì)應(yīng)的網(wǎng)頁(yè)數(shù)目Hits1、Hits2和Hits12;所述的內(nèi)容信息就是采用檢索系統(tǒng)的編程接口分別檢索詞t1、t2,返回的對(duì)應(yīng)的前n個(gè)網(wǎng)頁(yè)的集合Content1和Content2,所述的AND表示邏輯與,所述的n的取值范圍為5~10;
步驟二:利用步驟一得到的統(tǒng)計(jì)信息和內(nèi)容信息分別計(jì)算詞t1和t2的統(tǒng)計(jì)相關(guān)度和內(nèi)容相關(guān)度;
所述的統(tǒng)計(jì)相關(guān)度的計(jì)算公式為:其中,rels表示統(tǒng)計(jì)相關(guān)度,min{Hits1,Hits2}表示取Hits1、Hits2兩者中的最小值;所述的內(nèi)容相關(guān)度的具體計(jì)算過程為:
步驟a:分別構(gòu)建詞t1和t2的上下文向量,對(duì)于詞t1:首先,去除網(wǎng)頁(yè)集合Content1中所有網(wǎng)頁(yè)中的除名詞、動(dòng)詞、形容詞和副詞以外的所有詞,得到詞t1的詞序列集合w1;然后,統(tǒng)計(jì)詞序列集合w1中每一個(gè)詞在網(wǎng)頁(yè)集合Content1所包含的所有網(wǎng)頁(yè)中出現(xiàn)的次數(shù)總和,得到詞序列集合w1對(duì)應(yīng)的頻率值集合p1;最后,以詞序列集合w1中的詞為不同的維度、以頻率值集合p1中對(duì)應(yīng)的頻率值為相應(yīng)維度上的值構(gòu)造得到詞t1的上下文向量
對(duì)于詞t2:首先,去除網(wǎng)頁(yè)集合Content2中所有網(wǎng)頁(yè)中的除名詞、動(dòng)詞、形容詞和副詞以外的所有詞,得到詞t2的詞序列集合w2;然后,統(tǒng)計(jì)詞序列集合w2中每一個(gè)詞在網(wǎng)頁(yè)集合Content2所包含的所有網(wǎng)頁(yè)中出現(xiàn)的次數(shù)總和,得到詞序列集合w2對(duì)應(yīng)的頻率值集合p2;最后,以詞序列集合w2中的詞為不同的維度、以頻率值集合p2中對(duì)應(yīng)的頻率值為相應(yīng)維度上的值構(gòu)造得到詞t2的上下文向量
所述的詞序列集合僅由名詞、動(dòng)詞、形容詞和副詞構(gòu)成;所述的頻率值集合中的頻率值即為詞序列集合中每個(gè)詞出現(xiàn)的次數(shù)總和,與詞序列集合中的詞相對(duì)應(yīng);所述的上下文向量的維數(shù)等于詞序列集合中詞的個(gè)數(shù);
步驟b:對(duì)齊詞t1和t2的上下文向量具體為:首先,合并上下文向量的所有維度,得到新的維度序列;然后,對(duì)照新的維度序列分別重新排列上下文向量中的值,對(duì)于新的維度序列中存在而上下文向量中不存在的維度,令上下文向量中對(duì)應(yīng)該維度的值為零,得到對(duì)齊后的詞t1和t2的上下文向量
步驟c:利用夾角余弦公式計(jì)算得到t1和t2的內(nèi)容相關(guān)度;其中,relc表示內(nèi)容相關(guān)度;
步驟三:按rel=α×rels+(1-α)×relc計(jì)算得到詞t1和t2的最終的語義相關(guān)度;所述的α的取值范圍為0.3~0.7。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110123276.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基于非局部約束的全變分圖像去模糊方法
- 下一篇:防風(fēng)衣架
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 帶有前處理和后處理的數(shù)據(jù)庫(kù)復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫(kù)查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語言的查詢方法及查詢系統(tǒng)
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





