[發明專利]一種針對中小型網站的模塊化用戶檢索意圖建模方法有效
| 申請號: | 201611244184.1 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106599304B | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 郭克華;李婷 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/33 |
| 代理公司: | 長沙正奇專利事務所有限責任公司 43113 | 代理人: | 馬強;王娟 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 中小型 網站 模塊化 用戶 檢索 意圖 建模 方法 | ||
本發明公開了一種針對中小型網站的模塊化用戶檢索意圖建模方法,基于結合交叉信息熵和詞語特征信息的關鍵詞提取方法以及結合余弦相似度和加權海明距離的文本排序方法的用戶意圖檢索模型,取得了不要求用戶進行額外的反饋操作,在用戶正常檢索時可以實現用戶意圖的即時建模過程的進步,達到了不需要用戶任何反饋的條件下,為用戶推薦更滿意的檢索結果的效果,節省了用戶查找目標結果的時間和精力,提高了用戶查詢的效率,以及使得目標結果更符合用戶檢索意圖。
技術領域
本發明涉及計算機領域,特別是一種針對中小型網站的模塊化用戶檢索意圖建模方法。
背景技術
近年來,各大型搜索引擎公司始終致力于搜索引擎算法的優化,來預測用戶搜索意圖。與大型搜索引擎公司相比,中小型網站投入成本一般較低,在網站建設和維護中常忽略搜索算法的優化,用戶在瀏覽這些網站時,可能耗費更多的精力和時間來得到符合自己檢索意圖的結果。因此,就需要為中小型網站提供一種檢索優化方法,使其能為用戶提供更加優質的檢索服務。
目前,成熟的商用搜索引擎在用戶檢索意圖研究方面頗有成果,已經提出的技術方案主要有以下幾種:將用戶查詢意圖分為導航類、信息類和事務類三種;通過分析用戶搜索上下文猜測其檢索意圖;將查詢結果分類后讓用戶粗略選擇,并以此為依據對結果再提取;通過分析Web日志得到用戶歷史模型;通過分析瀏覽器的公共查詢日志和用戶個人查詢活動來理解用戶意圖。對于中小型網站的優化,提出的技術有:基于緩沖、壓縮編碼等技術或思想的系統優化策略;站內優化策略和站外優化策略。這些方法都是對網站設計方案的研究。對于中小型網站的文本檢索通常采用的檢索模式是將用戶輸入的查詢條件作為查詢依據,僅以用戶提交的關鍵詞與數據庫中的數據進行匹配,得到查詢結果列表。
成熟的商用搜索引擎在用戶檢索意圖研究方面提出的技術方案并未廣泛應用于中小型網站的優化;對于中小型網站提出的技術方案都是對網站設計方案的研究。而針對中小型網站的文本檢索所采用的檢索模式僅以用戶提交的關鍵詞作為查詢依據,較少考慮用戶檢索意圖。一般情況下,用戶只輸入簡短的詞語作為查詢條件,這樣就導致在該檢索模式下的檢索結果濫而不準,用戶則需要耗費更多的時間和精力去通過查看鏈接的詳細信息來查找目標結果。
發明內容
本發明所要解決的技術問題是,針對現有技術不足,提供一種針對中小型網站的模塊化用戶檢索意圖建模方法。
為解決上述技術問題,本發明所采用的技術方案是:一種針對中小型網站的模塊化用戶檢索意圖建模方法,包括以下步驟:
1)將從用戶與中小型網站服務器交互中提取的文本信息記為T,從文本T中提取初始關鍵詞集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i個關鍵詞,R表示集合K1的元素個數,w1(ki)表示關鍵詞ki的權重值,w1(ki)的值等于詞語ki的交叉信息熵值TFIDF(ki),并計算關鍵詞的詞性因子權重p(ki)、詞語ki在文本T中的頻率freq(ki)和TFIDF(ki);
2)計算K1={(ki,w1(ki))|1≤i≤R}中各關鍵詞的綜合權重值w(ki),得到關鍵詞集K2={(ki,w(ki))|1≤i≤R};ki的綜合權重值計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611244184.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種地址匹配方法及系統
- 下一篇:一種基于眾包的異構媒體語義融合方法





