[發明專利]通過權值比較實現規則后件挖掘的跨語言查詢擴展方法有效
| 申請號: | 201811646511.5 | 申請日: | 2018-12-30 |
| 公開(公告)號: | CN109684464B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經學院 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 比較 實現 規則 挖掘 語言 查詢 擴展 方法 | ||
1.通過權值比較實現規則后件挖掘的跨語言查詢擴展方法,其特征在于,包括以下步驟:
步驟1:源語言用戶查詢通過機器翻譯系統譯為目標語言,采用向量空間檢索模型檢索目標語言文本文檔集得到初檢前列目標語言文檔,通過對初檢前列目標語言文檔進行相關性判斷構建初檢用戶相關文檔集,預處理初檢用戶相關文檔集,構建目標語言文本文檔索引庫和特征詞庫;
步驟2:通過項集權值比較在所述初檢用戶相關反饋文檔集挖掘含有原查詢詞項的頻繁項集,運用項集關聯度值以及項集的項目權值最大者或者最大項目權值對項集進行剪枝,具體步驟如下:
(2-1)挖掘文本特征詞1_頻繁項集L1,具體步驟如下:
(2-1-1)從特征詞庫中提取文本特征詞作為1_候選項集C1;
(2-1-2)掃描目標語言文本文檔索引庫,統計文本文檔總數n和統計C1的項集權值w[C1];
(2-1-3)計算最小權值支持閾值MWS,所述MWS計算公式如式(2)所示:
MWS=n×ms (2)
式(2)中,所述ms為最小支持度閾值,n為目標語言文本文檔索引庫的文本文檔總數;
(2-1-4)如果w[C1]≥MWS,則C1就是文本特征詞1_頻繁項集L1,添加到頻繁項集集合FIS;
(2-2)挖掘文本特征詞2_頻繁項集L2,具體步驟如下:
(2-2-1)采用Aproiri連接方法將文本特征詞1_頻繁項集L1自連接得到多個2_候選項集C2;
(2-2-2)剪枝不含原查詢詞項的2_候選項集C2;
(2-2-3)對余下的2_候選項集C2,掃描目標語言文本文檔索引庫分別統計各余下的2_候選項集C2的項集權值w[C2];
(2-2-4)如果w[C2]≥MWS×2,則該2_候選項集C2就是文本特征詞2_頻繁項集L2,添加到頻繁項集集合FIS;
(2-3)挖掘文本特征詞k_頻繁項集Lk,所述k≥2,具體步驟如下:
(2-3-1)采用Aproiri連接方法將文本特征詞(k-1)_頻繁項集Lk-1自連接得到多個k_候選項集Ck=(i1,i2,…,ik),所述k≥2;
(2-3-2)掃描目標語言文本文檔索引庫,分別統計各Ck的項集權值w[Ck]和各Ck中最大的項目權值wm,分別得到各Ck中最大的項目權值wm對應的項目im,所述m∈(1,2,…,k);
(2-3-3)如果所述項目im對應的1_項集(im)是非頻繁的,或者wmMWS,則剪枝對應的Ck;
(2-3-4)對于余下的各Ck,分別計算各Ck的項集關聯度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,該Ck就是文本特征詞k_頻繁項集Lk,添加到頻繁項集集合FIS;所述minIRe為最小項集關聯度閾值;所述IRe(Ck)的計算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含義如下:對于Ck=(i1,i2,…ik),k_候選項集Ck的各個項目i1,i2,…,ik分別單獨作為1_項集時對應為(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分別表示1_項集(i1),(i2),…,(ik)中最小的1_項集權值和最大的1_項集權值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2-3-5)如果文本特征詞k_頻繁項集Lk為空集,則文本特征詞頻繁項集挖掘結束,轉入如下步驟3,否則,k加1后轉入步驟(2-3-1)繼續順序循環;
步驟3:采用卡方分析-置信度評價框架從頻繁項集集合FIS中每一個文本特征詞k_頻繁項集Lk挖掘含有原查詢詞項的文本特征詞加權關聯規則模式,所述k≥2;具體方法如下:
從頻繁項集集合FIS中取出任意一個文本特征詞k_頻繁項集Lk,按照下面步驟挖掘每個Lk的所有含有原查詢詞項的關聯規則模式:
(3-1)構建Lk的所有真子集項集集合;
(3-2)從真子集項集集合中任意取出兩個真子集項集qt和Et,且qt∪Et=Lk,QTL為目標語言原查詢詞項集合,Et為不含原查詢詞項的特征詞項集合,計算項集(qt,Et)的卡方值Chis(qt,Et),計算公式如式(4)所示:
式(4)中,w[(qt)]為項集qt在目標語言文本文檔索引庫中項集權值,k1為項集qt的長度,w[(Et)]為項集Et在目標語言文本文檔索引庫中項集權值,k2為項集Et的長度,w[(qt,Et)]為項集(qt,Et)在目標語言文本文檔索引庫中的項集權值,kL為項集(qt,Et)的項目個數,n為目標語言文本文檔索引庫的文本文檔總數;
(3-3)如果Chis(qt,Et)0,則計算文本特征詞加權關聯規則置信度WConf(qt→Et),若WConf(qt→Et)≥最小置信度閾值mc,則關聯規則qt→Et是強加權關聯規則模式,添加到加權關聯規則模式集合WAR;所述WConf(qt→Et)的計算公式如式(5)所示:
式(5)中,w[(qt)],k1,w[(qt,Et)],kL定義同式(4);
(3-4)如果Lk的每個真子集項集當且僅當都被取出一次,那么本次Lk中的文本特征詞加權關聯規則模式挖掘結束,這時從繁項集集合FIS中重新取出另一個Lk,并轉入步驟(3-1)依序執行進行另一個Lk的加權關聯規則模式挖掘,否則,轉入步驟(3-2)依序執行各個步驟;如果頻繁項集集合FIS中的每個Lk都已經被取出挖掘加權關聯規則模式,則結束整個加權關聯規則模式挖掘,轉入如下步驟4;
步驟4:從加權關聯規則模式集合WAR中提取每個加權關聯規則qt→Et的后件Et作為查詢擴展詞,按式(6)計算擴展詞權值we:
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)
式(6)中,max(WConf())、max(Chis())和max(IRe())分別表示加權關聯規則置信度的最大值、卡方值的最大值和關聯度的最大值;
步驟5:步驟4所述查詢擴展詞與原查詢詞組合為新查詢再次檢索目標語言文檔,完成跨語言查詢擴展。
2.如權利要求1所述的通過權值比較實現規則后件挖掘的跨語言查詢擴展方法,其特征在于,所述步驟1預處理初檢用戶相關文檔集,具體方法為:去除停用詞,提取特征詞并按式(1)計算特征詞權值;
式(1)中,wij表示文檔di中特征詞tj的權值,tfj,i表示特征詞tj在文檔di中的詞頻,idfj是逆文檔頻度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院,未經廣西財經學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811646511.5/1.html,轉載請聲明來源鉆瓜專利網。





