[發明專利]一種基于多語義分析和個性化排序的語義檢索方法無效
| 申請號: | 201210488572.X | 申請日: | 2012-11-26 |
| 公開(公告)號: | CN103020164A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 馬應龍;張瀟瀾;于瀟 | 申請(專利權)人: | 華北電力大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 陳波 |
| 地址: | 102206 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分析 個性化 排序 檢索 方法 | ||
技術領域
本發明屬于信息檢索領域,尤其涉及一種基于多語義分析和個性化排序的語義檢索方法。
背景技術
搜索引擎是一個根據一定策略、運用特定的計算機程序從互聯網上搜集信息并對信息進行組織和處理后,為用戶提供檢索服務并將用戶檢索的相關信息展示給用戶的系統。為了應對互聯網上的信息容量的快速增長,搜索引擎應運而生。時至今日,它已經成為了人們從網絡上獲取信息的必不可少的途徑。但是,當今主流的基于關鍵字的搜索引擎如Google、Baidu、Bing、Yahoo等,普遍存在一些棘手問題。如用戶搜索的結果會普遍存在大量不相關的鏈接;由于用戶人群的多樣性,單一的結果不能針對性的滿足每個用戶的特殊需要;搜索過程不考慮詞之間的語義相關度,且搜索結果沒有有效地按某種方式組織起來,用戶不得費時費力瀏覽和挑選。
語義搜索是一種新型的不同于基于關鍵字搜索的搜索方式。一般來講,語義搜索的工作不再拘泥于用戶所輸入請求語句的關鍵字本身,而能夠較為準確地捕捉到用戶所輸入語句潛在的意圖,從而能更準確地向用戶返回最符合其需求的結果,相比傳統的搜索具有較高的檢索精度和獨到的優勢。Ramesh?Singh和Myungjin?Lee在其研究中試圖對搜索結果進行重新組織,來改善用戶的搜索體驗。Lien-Fu?Lai和Huanhuan?Cao利用隱馬爾科夫樹或其他模型來計算不同結果間關系的相關度,從而增加搜索結果的涵蓋面。FangLiu和Jaime?Teevan等提出了各種利用用戶歷史訪問信息進行個性化搜索的方法,用以提高搜索的精度。上述這些研究在語義搜索方面都進行了適當的改進,但這些研究在基于對用戶查詢歸類的個性化中,所能實行個性化的條件比較苛刻,且時間消耗的增加控制不好;其次,過程中沒有考慮到與用戶相關的不同信息具有不同的權重。因此,對最終搜索結果的排序處理方式仍舊不盡人意。
發明內容
針對現有信息檢索在檢索精度和用戶檢索體驗方面存在的問題,本發明提出了一種基于多語義分析和個性化排序的語義檢索方法。
一種基于多語義分析和個性化排序的語義檢索方法,其特征在于,具體包括以下步驟:
步驟1:利用爬蟲技術從互聯網上獲取網頁文檔的一部分作為訓練模型進行手工分類,結合多語義分析方法MSA構造詞向量庫,將網頁文檔用向量表示,并把訓練模型放到支持向量機SVM分類器中對文檔向量進行訓練,新的網頁利用此模型借助SVM進行分類;將所有網頁的類別信息作為一個屬性寫到索引庫中;
步驟2:基于步驟1形成的詞向量庫,將用戶輸入的檢索關鍵詞構造各自的詞向量,形成最終的查詢向量,并將查詢向量與索引庫進行類別匹配查詢,得到初始的網頁檢索結果。
步驟3:根據用戶的個人定制信息和歷史訪問信息對初始檢索結果進行優化排序,并將最終檢索結果返回給用戶。
步驟1中,基于多語義分析方法MSA構造詞向量庫,并將網頁文檔的分類結果寫到索引中,形成索引庫的過程;具體包括以下幾個步驟:
步驟11:構造概念空間;本發明設定空間為m維。
概念空間的基礎維度是一些類別標簽的集合,能夠表示整個語料庫的信息,一般從語料庫分類標簽中直接提取的m個類別標簽構成向量的m個維度,則網頁文檔中每個詞的語義信息由一個m維向量來描述,稱為詞向量;
步驟12:詞向量分量值的確定:
詞是從訓練模型的網頁文檔中提取出來的,詞向量的每一個分量值的大小由訓練模型的所有文檔來決定,詞向量的每一個分量值計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華北電力大學,未經華北電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210488572.X/2.html,轉載請聲明來源鉆瓜專利網。





