[發(fā)明專利]一種基于多語義分析和個性化排序的語義檢索方法無效
| 申請?zhí)枺?/td> | 201210488572.X | 申請日: | 2012-11-26 |
| 公開(公告)號: | CN103020164A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設計)人: | 馬應龍;張瀟瀾;于瀟 | 申請(專利權(quán))人: | 華北電力大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 陳波 |
| 地址: | 102206 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分析 個性化 排序 檢索 方法 | ||
1.一種基于多語義分析和個性化排序的語義檢索方法,其特征在于,具體包括以下步驟:
步驟1:利用爬蟲技術從互聯(lián)網(wǎng)上獲取網(wǎng)頁文檔的一部分作為訓練模型進行手工分類,結(jié)合多語義分析方法MSA構(gòu)造詞向量庫,將網(wǎng)頁文檔用向量表示,并把訓練模型放到支持向量機SVM分類器中對文檔向量進行訓練,新的網(wǎng)頁利用此模型借助SVM進行分類;將所有網(wǎng)頁的類別信息作為一個屬性寫到索引庫中;
步驟2:基于步驟1形成的詞向量庫,將用戶輸入的檢索關鍵詞構(gòu)造各自的詞向量,形成最終的查詢向量,并將查詢向量與索引庫進行類別匹配查詢,得到初始的網(wǎng)頁檢索結(jié)果;
步驟3:根據(jù)用戶的個人定制信息和歷史訪問信息對初始檢索結(jié)果進行優(yōu)化排序,并將最終檢索結(jié)果返回給用戶。
2.根據(jù)權(quán)利要求1所述的一種基于多語義分析和個性化排序的語義檢索方法,其特征在于,所述步驟1中,基于多語義分析方法MSA構(gòu)造詞向量庫,并將網(wǎng)頁文檔的分類結(jié)果寫到索引中,形成索引庫的過程;具體包括步驟:
步驟11:構(gòu)造概念空間;本發(fā)明設定空間為m維;
概念空間的基礎維度是一些類別標簽的集合,能夠表示整個語料庫的信息,一般從語料庫分類標簽中直接提取的m個類別標簽構(gòu)成向量的m個維度,則網(wǎng)頁文檔中每個詞的語義信息由一個m維向量來描述,稱為詞向量;
步驟12:詞向量分量值的確定:
詞是從訓練模型的網(wǎng)頁文檔中提取出來的,詞向量的每一個分量值的大小由訓練模型的所有文檔來決定;詞向量的每一個分量值計算公式為:
其中,tj代表詞向量庫中的第j個詞,w(ci,tj)代表詞tj與對應詞向量中第i個維度ci的關系,即是詞tj對應詞向量得第i個分量值;|D|為訓練文檔的數(shù)量;tf(dk,tj)指的是詞tj在文檔dk中出現(xiàn)的頻率;H(ci,dk)是個判斷函數(shù):如果文檔dk屬于維度ci所描述的領域,則H(ci,dk)值為1,否則為0;length(dk)為文檔dk的長度,即文檔dk經(jīng)過分詞去噪后得到的詞的個數(shù),當某一個詞在文檔中多次出現(xiàn)時,則重復計數(shù),即length(dk)≥n;k是文檔的數(shù)量;
步驟13:詞向量單位化處理及詞向量庫的形成:
將詞向量單位化處理,使其分量值范圍為[0,1],從而具有更好的通用性;多個單位化后的詞向量便形成詞向量庫;詞向量單位化的計算公式為:
其中,單位化后的詞向量記為w′(ci,tj)為的第i個分量值,則詞向量庫為:
步驟14:通過TFIDF方法得到文檔中每個詞的權(quán)值并將此權(quán)值進行單位化處理;TFIDF權(quán)值法是流行多年的且被證明切實有效的權(quán)值法之一,它對權(quán)值的確定僅依賴于語料庫的整體情況而不考慮分類情況,因此具有很強的通用性,能夠應用于多分類文本表示中的詞的權(quán)值確定;TFIDF權(quán)值確定法的計算公式為:
其中,tg為文檔dk的第g個分詞,weight(tg,dk)代表詞tg在文檔dk中所占的權(quán)值,D代表訓練文檔的集合,dk代表第k個文檔;|D|為訓練文檔的數(shù)量;D'代表含有詞tg的文檔集合,|D′|為集合D′中文檔的數(shù)量;
同理單位化處理,使得文檔分詞后詞的權(quán)值取值范圍為[0,1],文檔分詞后詞的權(quán)值的計算公式為:
其中,weight'(tg,dk)為單位化后詞tg在文檔dk中所占的權(quán)值,n為文檔的分詞種類總數(shù);
步驟15:文檔向量形成;在采用TFIDF法表示權(quán)值以后,多語義分析(MSA)的文檔向量就形成了,文檔dk對應的文檔向量中第i分量值的計算公式為:
文檔dk的文檔向量形式記為:
其中,n為文檔的分詞種類總數(shù),為tg在詞向量庫中的向量形式;
此文檔向量,每個分量值直接代表了此文檔跟對應維度(類別)的相關度,具有很強的語義性,是匹配查詢的基礎;之后借助預先定義好的m個類別標簽,使用支持向量機技術對文檔向量進行分類并作為新的網(wǎng)頁的分類標準,并將所有網(wǎng)頁的類別作為一個屬性寫到索引庫中。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華北電力大學,未經(jīng)華北電力大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210488572.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





