[發明專利]基于RCSAC框架挖掘和規則后件擴展的跨語言文本檢索方法在審
| 申請號: | 201811649213.1 | 申請日: | 2018-12-30 |
| 公開(公告)號: | CN109753559A | 公開(公告)日: | 2019-05-14 |
| 發明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經學院 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F17/28 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關聯規則 目標語言 語言文本 挖掘 機器翻譯 規則后件 檢索目標 語言文檔 查詢詞 后件 檢索 關聯規則挖掘 目標語言文檔 源語言查詢 源語言文檔 檢索結果 檢索性能 頻繁項集 詞組合 關聯度 文檔集 新查詢 置信度 剪枝 構建 前件 文檔 查詢 翻譯 返回 應用 分析 | ||
1.基于RCSAC框架挖掘和規則后件擴展的跨語言文本檢索方法,其特征在于,包括下列步驟:
步驟1:源語言用戶查詢通過機器翻譯工具譯為目標語言,采用向量空間檢索模型檢索目標語言文本文檔集得到初檢前列目標語言文檔,通過對初檢前列目標語言文檔進行相關性判斷構建目標語言初檢相關文檔集,預處理目標語言初檢相關文檔集,分別構建目標語言文本文檔索引庫和特征詞庫;
步驟2:通過項集權值比較在目標語言初檢相關文檔集中挖掘含有原查詢詞項的頻繁項集,采用關聯度-卡方分析-置信度評價框架從頻繁項集中挖掘那些前件是原查詢詞項的關聯規則;具體步驟如下:
(2.1)挖掘文本特征詞1_頻繁項集L1,具體步驟如下:
(2.1.1)從特征詞庫中提取文本特征詞作為1_候選項集C1;
(2.1.2)掃描目標語言文本文檔索引庫,統計文本文檔總數n和統計C1的項集權值w[C1];
(2.1.3)計算最小權值支持閾值MWS;所述MWS計算公式如式(2)所示;
MWS=n×ms (2)
式(2)中,所述ms為最小支持度閾值,n為目標語言文本文檔索引庫的文本文檔總數;
(2.1.4)如果w[C1]≥MWS,則C1就是文本特征詞1_頻繁項集L1,添加到頻繁項集集合FIS;
(2.2)挖掘文本特征詞2_頻繁項集L2,具體步驟如下:
(2.2.1)采用Aproiri連接方法將文本特征詞1_頻繁項集L1自連接得到多個2_候選項集C2;
(2.2.2)剪枝不含原查詢詞項的2_候選項集C2;
(2.2.3)對余下的2_候選項集C2,掃描目標語言文本文檔索引庫分別統計余下的2_候選項集C2的項集權值w[C2];
(2.2.4)如果w[C2]≥MWS,則C2就文本特征詞2_頻繁項集L2,添加到頻繁項集集合FIS;
(2.3)挖掘文本特征詞k_頻繁項集Lk,所述k≥2;具體步驟如下:
(2.3.1)采用Aproiri連接方法將文本特征詞(k-1)_頻繁項集Lk-1自連接得到多個k_候選項集Ck=(i1,i2,…,ik),所述k≥2;
(2.3.2)掃描目標語言文本文檔索引庫,分別統計各Ck的項集權值w[Ck]和各Ck中最大的項目權值wm,分別得到各Ck中最大的項目權值wm對應的項目im,所述m∈(1,2,…,k);
(2.3.3)如果所述項目im對應的1_項集(im)是非頻繁的,或者wm<MWS,則剪枝所述Ck;
(2.3.4)對于余下的Ck,分別計算Ck的項集關聯度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,該Ck就是文本特征詞k_頻繁項集Lk,添加到頻繁項集集合FIS;所述minIRe為最小項集關聯度閾值;所述IRe(Ck)的計算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含義如下:對于Ck=(i1,i2,…ik),k_候選項集Ck的各個項目i1,i2,…,ik分別單獨作為1_項集時對應為(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分別表示1_項集(i1),(i2),…,(ik)中最小的1_項集權值和最大的1_項集權值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.3.5)如果文本特征詞k_頻繁項集Lk為空集,這時,則文本特征詞頻繁項集挖掘結束,轉入如下步驟(2.4),否則,k加1后轉入步驟(2.3.1)繼續順序循環;
(2.4)從頻繁項集集合FIS中取出任意一個文本特征詞k_頻繁項集Lk,所述k≥2,按照下面步驟挖掘每個Lk的所有含有原查詢詞項的關聯規則模式:
(2.4.1)構建Lk的所有真子集項集集合;
(2.4.2)從真子集項集集合中任意取出兩個真子集項集qt和Et,且qt∪Et=Lk,QTL為目標語言原查詢詞項集合,Et為不含原查詢詞項的特征詞項集,計算項集(qt,Et)的卡方值Chis(qt,Et),計算公式如式(4)所示:
式(4)中,w[(qt)]為項集qt在目標語言文本文檔索引庫中項集權值,k1為項集qt的長度,w[(Et)]為項集Et在目標語言文本文檔索引庫中項集權值,k2為項集Et的長度,w[(qt,Et)]為項集(qt,Et)在目標語言文本文檔索引庫中的項集權值,kL為項集(qt,Et)的項目個數,n為目標語言文本文檔索引庫的文本文檔總數;
(2.4.3)如果Chis(qt,Et)>0,則計算文本特征詞加權關聯規則置信度WConf(qt→Et);若WConf(qt→Et)≥最小置信度閾值mc,則關聯規則qt→Et是強加權關聯規則模式,添加到關聯規則模式集合AR;所述WConf(qt→Et)的計算公式如式(5)所示:
式(5)中,w[(qt)],k1,w[(qt,Et)],kL定義同式(4);
(2.4.4)如果Lk的每個真子集項集當且僅當都被取出一次,那么本次Lk中的文本特征詞加權關聯規則模式挖掘結束,這時從繁項集集合FIS中重新取出另一個Lk,并轉入步驟(2.4.1)依序執行進行另一個Lk的加權關聯規則模式挖掘,否則,轉入步驟(2.4.2)再順序執行各個步驟;如果頻繁項集集合FIS中的每個Lk都已經被取出挖掘加權關聯規則模式,則結束整個加權關聯規則模式挖掘,轉入如下步驟3;
步驟3:從關聯規則模式集合AR中提取每個關聯規則qt→Et的后件Et作為查詢擴展詞,計算所述查詢擴展詞權值:
所述擴展詞的權值we計算公式如式(6)所示:
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)
式(6)中,max(WConf())、max(Chis())和max(IRe())分別表示關聯規則置信度的最大值、卡方值的最大值和關聯度的最大值;
步驟4:所述查詢擴展詞與原查詢詞組合為新查詢,新查詢再次檢索目標語言文檔得到最終檢索結果目標語言文檔,最終檢索結果目標語言文檔通過機器翻譯工具翻譯為源語言文檔返回給用戶。
2.如權利要求1所述的基于RCSAC框架挖掘和規則后件擴展的跨語言文本檢索方法,其特征在于,所述步驟1中預處理目標語言初檢相關文檔集,方法如下:去除停用詞,提取特征詞并按下式(1)計算特征值權值:
式(1)中,wij表示文檔di中特征詞tj的權值,tfj,i表示特征詞tj在文檔di中的詞頻,普遍將tfj,i進行標準化處理,所述標準化處理是指將文檔di中每個特征詞所述的tfj,i除以文檔di的最大詞頻,idfj是逆文檔頻度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院,未經廣西財經學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811649213.1/1.html,轉載請聲明來源鉆瓜專利網。





