[發(fā)明專利]一種針對中小型網(wǎng)站的模塊化用戶檢索意圖建模方法有效
| 申請?zhí)枺?/td> | 201611244184.1 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106599304B | 公開(公告)日: | 2020-03-24 |
| 發(fā)明(設(shè)計)人: | 郭克華;李婷 | 申請(專利權(quán))人: | 中南大學(xué) |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/33 |
| 代理公司: | 長沙正奇專利事務(wù)所有限責(zé)任公司 43113 | 代理人: | 馬強;王娟 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 中小型 網(wǎng)站 模塊化 用戶 檢索 意圖 建模 方法 | ||
1.一種針對中小型網(wǎng)站的模塊化用戶檢索意圖建模方法,其特征在于,包括以下步驟:
1)將從用戶與中小型網(wǎng)站服務(wù)器交互中提取的文本信息記為T,從文本T中提取初始關(guān)鍵詞集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i個關(guān)鍵詞,R表示集合K1的元素個數(shù),w1(ki)表示關(guān)鍵詞ki的權(quán)重值,w1(ki)的值等于詞語ki的交叉信息熵值TFIDF(ki),并計算關(guān)鍵詞的詞性因子權(quán)重p(ki)、詞語ki在文本T中的頻率freq(ki)和TFIDF(ki);
2)計算K1={(ki,w1(ki))|1≤i≤R}中各關(guān)鍵詞的綜合權(quán)重值w(ki),得到關(guān)鍵詞集K2={(ki,w(ki))|1≤i≤R};ki的綜合權(quán)重值計算公式如下:
w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki);
其中,a、b、c、d、e分別為各特征權(quán)重的比例系數(shù);F(ki)為詞語ki的詞頻權(quán)重;S(ki)為詞語ki的詞跨度權(quán)重;L(ki)為詞語ki的詞位置權(quán)重;
3)對所述關(guān)鍵詞集K2={(ki,w(ki))|1≤i≤R}進(jìn)行遍歷,從第i個關(guān)鍵詞ki開始判斷,將第i個之后的關(guān)鍵詞kj依次與ki進(jìn)行比較,其中i+1≤j≤R;若ki包含kj,且w(ki)>w(kj),則將ki加入到過濾后的關(guān)鍵詞集中;否則,若kj包含ki,且w(kj)>w(ki),則將kj加入到過濾后的關(guān)鍵詞集中;若上述兩種情況都不滿足,則將ki和kj都加入到過濾后的關(guān)鍵詞集中,直到第i個之后的關(guān)鍵詞全部和第i個比較完畢;當(dāng)關(guān)鍵詞集K2中的元素全部遍歷一遍之后,結(jié)束,最后返回過濾后的關(guān)鍵詞集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素個數(shù);將K中的Q個元素作為重新檢索的條件在搜索引擎中重新檢索,得到Ts={ti|1≤i≤H},ti表示Ts中第i個文本信息,H表示Ts中文本個數(shù);1≤Q≤M;
4)按降序?qū)螷中關(guān)鍵詞的綜合權(quán)重值w(kr)排序,得到向量U=[w1,w2,…,wM],即為用戶意圖模型,其中w1,w2,…,wM分別對應(yīng)排好序的K中關(guān)鍵詞的綜合權(quán)重值w(kr);
5)遍歷文本的特征向量Ti=[wt1,wt2,…,wtM],依次判斷wti是否為0,若不為0,則將用戶意圖模型U=[w1,w2,…,wM]中對應(yīng)的wi除以1+wi,直到Ti中所有的元素遍歷完成,將所求的wi/1+wi求和,得到一個值w_sum;再將用戶意圖模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即最后將w_sum除以即得到用戶意圖模型與文本的特征向量Ti的加權(quán)海明距離dis(U,Ti);
6)利用以下公式計算U與Ti的最終相似度值Sim(U,Ti):
Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti);
其中,p1、p2為比例系數(shù);
7)將集合Ts中的所有文本按Sim(U,Ti)降序排列并返回給用戶,從而實現(xiàn)基于用戶意圖檢索的建模過程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南大學(xué),未經(jīng)中南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611244184.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





