[發明專利]通過權值比較實現規則后件挖掘的跨語言查詢擴展方法有效

申請號：	201811646511.5	申請日：	2018-12-30
公開（公告）號：	CN109684464B	公開（公告）日：	2021-06-04
發明（設計）人：	黃名選	申請（專利權）人：	廣西財經學院
主分類號：	G06F16/332	分類號：	G06F16/332
代理公司：	廣西南寧公平知識產權代理有限公司 45104	代理人：	黃春蓮
地址：	530000 廣西壯族***	國省代碼：	廣西;45
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	通過比較實現規則挖掘語言查詢擴展方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.通過權值比較實現規則后件挖掘的跨語言查詢擴展方法，其特征在于,包括以下步驟：

步驟1：源語言用戶查詢通過機器翻譯系統譯為目標語言，采用向量空間檢索模型檢索目標語言文本文檔集得到初檢前列目標語言文檔，通過對初檢前列目標語言文檔進行相關性判斷構建初檢用戶相關文檔集，預處理初檢用戶相關文檔集，構建目標語言文本文檔索引庫和特征詞庫；

步驟2：通過項集權值比較在所述初檢用戶相關反饋文檔集挖掘含有原查詢詞項的頻繁項集，運用項集關聯度值以及項集的項目權值最大者或者最大項目權值對項集進行剪枝，具體步驟如下：

(2-1)挖掘文本特征詞1_頻繁項集L₁，具體步驟如下：

(2-1-1)從特征詞庫中提取文本特征詞作為1_候選項集C₁；

(2-1-2)掃描目標語言文本文檔索引庫，統計文本文檔總數n和統計C₁的項集權值w[C₁]；

(2-1-3)計算最小權值支持閾值MWS，所述MWS計算公式如式(2)所示：

MWS＝n×ms (2)

式(2)中，所述ms為最小支持度閾值，n為目標語言文本文檔索引庫的文本文檔總數；

(2-1-4)如果w[C₁]≥MWS，則C₁就是文本特征詞1_頻繁項集L₁，添加到頻繁項集集合FIS；

(2-2)挖掘文本特征詞2_頻繁項集L₂，具體步驟如下：

(2-2-1)采用Aproiri連接方法將文本特征詞1_頻繁項集L₁自連接得到多個2_候選項集C₂；

(2-2-2)剪枝不含原查詢詞項的2_候選項集C₂；

(2-2-3)對余下的2_候選項集C₂，掃描目標語言文本文檔索引庫分別統計各余下的2_候選項集C₂的項集權值w[C₂]；

(2-2-4)如果w[C₂]≥MWS×2，則該2_候選項集C₂就是文本特征詞2_頻繁項集L₂，添加到頻繁項集集合FIS；

(2-3)挖掘文本特征詞k_頻繁項集L_k，所述k≥2，具體步驟如下：

(2-3-1)采用Aproiri連接方法將文本特征詞(k-1)_頻繁項集L_k-1自連接得到多個k_候選項集C_k＝(i₁,i₂,…,i_k)，所述k≥2；

(2-3-2)掃描目標語言文本文檔索引庫，分別統計各C_k的項集權值w[C_k]和各C_k中最大的項目權值w_m，分別得到各C_k中最大的項目權值w_m對應的項目i_m，所述m∈(1,2,…,k)；

(2-3-3)如果所述項目i_m對應的1_項集(i_m)是非頻繁的，或者w_mMWS，則剪枝對應的C_k；

(2-3-4)對于余下的各C_k，分別計算各C_k的項集關聯度IRe(C_k)，如果w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，該C_k就是文本特征詞k_頻繁項集L_k，添加到頻繁項集集合FIS；所述minIRe為最小項集關聯度閾值；所述IRe(C_k)的計算公式如式(3)所示；

式(3)中，w_min[(i_q)]和w_max[(i_p)]的含義如下：對于C_k＝(i₁,i₂,…i_k)，k_候選項集C_k的各個項目i₁,i₂,…,i_k分別單獨作為1_項集時對應為(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分別表示1_項集(i₁),(i₂),…,(i_k)中最小的1_項集權值和最大的1_項集權值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

(2-3-5)如果文本特征詞k_頻繁項集L_k為空集，則文本特征詞頻繁項集挖掘結束，轉入如下步驟3，否則，k加1后轉入步驟(2-3-1)繼續順序循環；

步驟3：采用卡方分析-置信度評價框架從頻繁項集集合FIS中每一個文本特征詞k_頻繁項集L_k挖掘含有原查詢詞項的文本特征詞加權關聯規則模式，所述k≥2；具體方法如下：

從頻繁項集集合FIS中取出任意一個文本特征詞k_頻繁項集L_k，按照下面步驟挖掘每個L_k的所有含有原查詢詞項的關聯規則模式：

(3-1)構建L_k的所有真子集項集集合；

(3-2)從真子集項集集合中任意取出兩個真子集項集q_t和E_t，且q_t∪E_t＝L_k，Q_TL為目標語言原查詢詞項集合，E_t為不含原查詢詞項的特征詞項集合，計算項集(q_t,E_t)的卡方值Chis(q_t,E_t)，計算公式如式(4)所示：

式(4)中，w[(q_t)]為項集q_t在目標語言文本文檔索引庫中項集權值，k₁為項集q_t的長度，w[(E_t)]為項集E_t在目標語言文本文檔索引庫中項集權值，k₂為項集E_t的長度，w[(q_t,E_t)]為項集(q_t,E_t)在目標語言文本文檔索引庫中的項集權值，k_L為項集(q_t,E_t)的項目個數，n為目標語言文本文檔索引庫的文本文檔總數；

(3-3)如果Chis(q_t,E_t)0，則計算文本特征詞加權關聯規則置信度WConf(q_t→E_t)，若WConf(q_t→E_t)≥最小置信度閾值mc，則關聯規則q_t→E_t是強加權關聯規則模式，添加到加權關聯規則模式集合WAR；所述WConf(q_t→E_t)的計算公式如式(5)所示：

式(5)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L定義同式(4)；

(3-4)如果L_k的每個真子集項集當且僅當都被取出一次，那么本次L_k中的文本特征詞加權關聯規則模式挖掘結束，這時從繁項集集合FIS中重新取出另一個L_k，并轉入步驟(3-1)依序執行進行另一個L_k的加權關聯規則模式挖掘，否則，轉入步驟(3-2)依序執行各個步驟；如果頻繁項集集合FIS中的每個L_k都已經被取出挖掘加權關聯規則模式，則結束整個加權關聯規則模式挖掘，轉入如下步驟4；

步驟4：從加權關聯規則模式集合WAR中提取每個加權關聯規則q_t→E_t的后件E_t作為查詢擴展詞，按式(6)計算擴展詞權值w_e：

w_e＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)

式(6)中，max(WConf())、max(Chis())和max(IRe())分別表示加權關聯規則置信度的最大值、卡方值的最大值和關聯度的最大值；

步驟5：步驟4所述查詢擴展詞與原查詢詞組合為新查詢再次檢索目標語言文檔，完成跨語言查詢擴展。

2.如權利要求1所述的通過權值比較實現規則后件挖掘的跨語言查詢擴展方法，其特征在于，所述步驟1預處理初檢用戶相關文檔集，具體方法為：去除停用詞，提取特征詞并按式(1)計算特征詞權值；

式(1)中，w_ij表示文檔d_i中特征詞t_j的權值，tf_j,i表示特征詞t_j在文檔d_i中的詞頻，idf_j是逆文檔頻度。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院，未經廣西財經學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811646511.5/1.html，轉載請聲明來源鉆瓜專利網。