[發明專利]基于項集權值比較的模式挖掘和混合擴展的文本檢索方法有效
| 申請號: | 201811649207.6 | 申請日: | 2018-12-30 |
| 公開(公告)號: | CN109684465B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經學院 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 集權 比較 模式 挖掘 混合 擴展 文本 檢索 方法 | ||
1.基于項集權值比較的模式挖掘和混合擴展的文本檢索方法,包括下列步驟:
步驟1.用戶查詢首次檢索文檔得到初檢結果,用戶對初檢結果進行相關反饋判斷得到初檢相關文檔集,預處理所述初檢相關文檔集,具體步驟如下:
(1.1)用戶查詢首次檢索文檔集得到初檢前列文檔;
(1.2)用戶對初檢前列文檔進行相關性判斷得到初檢相關文檔,構建初檢相關文檔集;
(1.3)預處理初檢相關文檔集,構建文檔索引庫和特征詞庫;
步驟2.結合原查詢詞項,挖掘含有原查詢詞項的特征詞頻繁項集,并進行項集剪枝,具體步驟如下:
(2.1)從特征詞庫中提取特征詞作為1_候選項集C1;
(2.2)掃描文檔索引庫,統計文檔總數n和統計C1的項集權值w[C1];
(2.3)計算最小權值支持閾值MWS;所述MWS計算公式如式(2)所示:
MWS=n×ms (2)
式(2)中,所述ms為最小支持度閾值,n為文檔索引庫的文本文檔總數;
(2.4)如果w[C1]≥MWS,則C1就是特征詞1_頻繁項集L1,添加到頻繁項集集合FIS;
(2.5)采用Aproiri連接方法將特征詞1_頻繁項集L1自連接得到多個2_候選項集C2;
(2.6)剪枝不含原查詢詞項的2_候選項集C2;
(2.7)對余下的2_候選項集C2,掃描文檔索引庫分別統計C2的項集權值w[C2];
(2.8)如果w[C2]≥MWS,則C2就是特征詞2_頻繁項集L2,添加到頻繁項集集合FIS;
(2.9)采用Aproiri連接方法將特征詞(k-1)_頻繁項集Lk-1自連接得到多個k_候選項集Ck=(i1,i2,…,ik),所述k≥2;
(2.10)掃描文檔索引庫,分別統計各Ck的項集權值w[Ck]和各Ck中最大的項目權值wm,分別得到所述最大的項目權值wm對應的項目im,所述m∈(1,2,…,k);
(2.11)如果所述項目im對應的1_項集(im)是非頻繁的,或者wmMWS,則剪枝所述Ck;
(2.12)對于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,對應的Ck就是特征詞k_頻繁項集Lk,添加到頻繁項集集合FIS;所述minRate為最小項集權值比閾值;所述wmin[(iq)]為最小項目的項集權值,wmax[(ip)]為最大項目的項集權值,wmin[(iq)]和wmax[(ip)]的含義如下:假設k_候選項集Ck=(i1,i2,…ik),Ck的各個項目i1,i2,…,ik單獨作為1_項集時對應為(i1),(i2),…,(ik),在文檔索引庫中統計1_項集(i1),(i2),…,(ik)的項集權值分別為w[(i1)],w[(i2)],…,w[(ik)],將w[(i1)],w[(i2)],…,w[(ik)]中最小的項集權值稱為最小項目的項集權值,記為wmin[(iq)],對應的1_項集記為(iq),將與Ck對應的所述項目iq稱為Ck的最小項目,同理,將w[(i1)],w[(i2)],…,w[(ik)]中最大的項集權值稱為最大項目的項集權值,記為wmax[(ip)],對應的1_項集記為(ip),將與Ck對應的所述項目ip稱為Ck的最大項目;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.13)如果特征詞k_頻繁項集Lk為空集,則特征詞頻繁項集挖掘結束,轉入如下步驟3,否則,k加1后轉入步驟(2.9)繼續順序循環;
步驟3.通過計算項集的卡方值和關聯規則置信度值從頻繁項集中提取含有原查詢詞項的強加權關聯規則,具體步驟如下:
(3.1)構建特征詞k_頻繁項集Lk的所有真子集項集集合;
(3.2)從真子集項集集合中任意取出兩個真子集項集qt和Et,且qt∪Et=Lk,QTL為原查詢詞項集合,Et為不含原查詢詞項的特征詞項集Et,計算項集(qt,Et)的卡方值Chis(qt,Et),計算公式如式(3)所示:
式(3)中,w[(qt)]為項集qt在文檔索引庫中項集權值,k1為項集qt的長度,w[(Et)]為項集Et在文檔索引庫中項集權值,k2為項集Et的長度,w[(qt,Et)]為項集(qt,Et)在文檔索引庫中的項集權值,kL為項集(qt,Et)的項目個數,n為文檔索引庫的文本文檔總數;
(3.3)如果Chis(qt,Et)0,則分別計算特征詞加權關聯規則置信度WConf(qt→Et)和WConf(Et→qt);若WConf(qt→Et)≥最小置信度閾值mc,則關聯規則qt→Et是強關聯規則模式,添加到關聯規則模式集合AR;若WConf(Et→qt)≥mc,則Et→qt是強關聯規則模式,添加到關聯規則模式集合AR;
所述WConf(qt→Et)和WConf(Et→qt)的計算公式如式(4)和(5)所示:
式(4)和(5)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定義同式(3);
(3.4)如果Lk的每個真子集項集當且僅當都被取出一次,那么本次Lk中的特征詞關聯規則模式挖掘結束,這時從頻 繁項集集合FIS中重新取出另一個Lk,并轉入步驟(3.1)進行另一個Lk的關聯規則模式挖掘,否則,轉入步驟(3.2)再順序執行各個步驟;如果頻繁項集集合FIS中的每個Lk都已經被取出挖掘關聯規則模式,則結束關聯規則模式挖掘,轉入如下步驟4;
步驟4.從關聯規則模式集合AR中提取每個關聯規則Et→qt的前件Et和關聯規則qt→Et的后件Et作為查詢擴展詞,計算所述擴展詞權值we,計算公式如式(6)所示:
式(6)中,max(WConf())和max(Chis())分別表示關聯規則置信度和卡方值的最大值,表示項集中最小項目的項集權值和最大項目的項集權值的比值的最大值,即當擴展詞重復出現在多個關聯規則模式時,分別取上述3個度量值的最大值;
步驟5.擴展詞與原查詢詞組合為新查詢再次檢索文檔得到最后檢索結果文檔返回給用戶。
2.如權利要求1所述的基于項集權值比較的模式挖掘和混合擴展的文本檢索方法,其特征在于,所述(1.3)預處理初檢相關文檔集,具體方法是:去除停用詞,提取特征詞,計算特征詞權值,計算公式如式(1)所示:
式(1)中,wij表示文檔di中特征詞tj的權值,tfj,i表示特征詞tj在文檔di中的詞頻,普遍將tfj,i進行標準化處理,所述標準化處理是指將文檔di中每個特征詞所述的tfj,i除以文檔di的最大詞頻,idfj是逆文檔頻度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院,未經廣西財經學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811649207.6/1.html,轉載請聲明來源鉆瓜專利網。





