[發(fā)明專利]基于矩陣加權關聯(lián)規(guī)則的中英跨語言查詢前件擴展方法有效
| 申請?zhí)枺?/td> | 201711435247.6 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108133022B | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經(jīng)學院 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 廣西南寧公平知識產(chǎn)權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 矩陣 加權 關聯(lián) 規(guī)則 中英跨 語言 查詢 擴展 方法 | ||
1.基于矩陣加權關聯(lián)規(guī)則的中英跨語言查詢前件擴展方法,其特征在于,首先借助機器翻譯將中文查詢翻譯為英文查詢并檢索英文文檔,用戶對初檢前列英文文檔進行相關性判斷得到初檢相關英文文檔集,對初檢相關英文文檔集進行預處理,構建初檢英文文檔庫和特征詞庫;采用基于項頻度和權值的矩陣加權關聯(lián)模式支持度計算方法以及基于支持度-置信度-興趣度的矩陣加權關聯(lián)模式挖掘方法對初檢相關英文文檔集挖掘后件是譯后原查詢詞項的矩陣加權關聯(lián)規(guī)則,從所述關聯(lián)規(guī)則中提取其前件作為中英跨語言譯后擴展詞;
所述采用基于項頻度和權值的矩陣加權關聯(lián)模式支持度計算方法以及基于支持度-置信度-興趣度的矩陣加權關聯(lián)模式挖掘方法對初檢相關英文文檔集挖掘后件是譯后原查詢詞項的矩陣加權關聯(lián)規(guī)則的具體步驟如下:
(1)挖掘英文特征詞矩陣加權頻繁1_項集L1:
從特征詞庫中提取英文特征詞作為英文特征詞候選1_項集C1,計算C1的矩陣加權支持度mwSup(C1),如果mwSup(C1)≥支持度閾值ms,則C1為矩陣加權頻繁1_項集L1,并將L1添加到矩陣加權頻繁項集集合mwPIS;
mwSup(C1)計算公式如式(2)所示:
式(2)中,n為初檢英文文檔庫中英文文檔總篇數(shù),W為初檢英文文檔庫中所有英文特征詞權值的累加總和值,為英文特征詞候選1_項集C1在初檢英文文檔庫中的項集權值累加所得的總和值,為英文特征詞候選1_項集C1在初檢英文文檔庫中出現(xiàn)的頻度;
(2)挖掘英文特征詞矩陣加權頻繁k_項集Lk,所述的k≥2,具體步驟:
(2.1)英文特征詞矩陣加權頻繁(k-1)_項集Lk-1進行Apriori連接生成英文特征詞矩陣加權候選k_項集Ck,所述的k≥2;
(2.2)當k=2時,刪除不含譯后原查詢詞項的英文特征詞候選2_項集C2,保留含有譯后原查詢詞項的候選2_項集C2;
(2.3)累加英文特征詞候選k_項集Ck在初檢英文文檔庫中的項集權值統(tǒng)計Ck在初檢英文文檔庫中的項集頻度計算Ck的矩陣加權支持度mwSup(Ck);
式(3)中,n為初檢英文文檔庫中英文文檔總篇數(shù),W為初檢英文文檔庫中所有英文特征詞權值的累加總和值,為英文特征詞矩陣加權候選k_項集Ck的項集長度;
(2.4)如果mwSup(Ck)≥ms,則Ck就是英文特征詞矩陣加權頻繁k_項集Lk,添加到矩陣加權頻繁項集集合mwPIS;
(2.5)若英文特征詞矩陣加權頻繁k_項集Lk不為空集,則k加1后轉入步驟(2.1)繼續(xù)循環(huán),否則,矩陣加權頻繁項集挖掘結束,轉入以下步驟(3);
(3)挖掘后件是譯后原查詢詞項的英文特征詞矩陣加權關聯(lián)規(guī)則:
對于矩陣加權頻繁項集集合mwPIS中每一個頻繁k_項集Lk,所述的k≥2,采用置信度-興趣度評價框架從頻繁k_項集Lk中挖掘后件是譯后原查詢詞項的英文特征詞矩陣加權關聯(lián)規(guī)則,步驟如下:
(3.1)取出頻繁k_項集Lk的所有真子集項集,構建Lk真子集項集集合;
(3.2)取出Lk真子集項集集合中任意兩個真子集項集Et和Eqt,且Et∪Eqt=Lk,QEn為譯后原查詢詞項集合;
(3.3)計算英文特征詞矩陣加權興趣度EMInt(Et,Eqt),如果EMInt(Et,Eqt)≥最小興趣度閾值mi,則計算英文特征詞矩陣加權置信度EMConf(Et→Eqt),若EMConf(Et→Eqt)≥最小置信度閾值mc,則關聯(lián)規(guī)則Et→Eqt是強英文特征詞矩陣加權關聯(lián)規(guī)則,并加入到英文特征詞矩陣加權關聯(lián)規(guī)則集合EMAR;
EMInt(Et,Eqt)和EMConf(Et→Eqt)的計算公式分別如式(4)和式(5)所示:
式(4)和(5)中,k1、k2項k12分別為英文特征詞矩陣加權項集Et、Eqt以及項集(Et,Eqt)的項集長度,n1、n2和n12分別為英文特征詞矩陣加權項集Et、Eqt以及項集(Et,Eqt)在初檢英文文檔庫中出現(xiàn)的頻度,w1、w2和w12分別為英文特征詞矩陣加權項集Et、Eqt以及項集(Et,Eqt)在初檢英文文檔庫中的項集權值累加所得的總和值;
(3.4)返回步驟(3.2),直到Lk的真子集項集集合中每個真子集項集當且僅當被取出一次,然后從矩陣加權頻繁項集集合mwPIS中重新取出新的頻繁k_項集Lk,轉入步驟(3.1)進行新一輪矩陣加權關聯(lián)規(guī)則挖掘,直到mwPIS中每一個頻繁k_項集Lk都已經(jīng)被取出,則英文特征詞間矩陣加權關聯(lián)規(guī)則挖掘結束;
所述從所述關聯(lián)規(guī)則中提取其前件作為中英跨語言譯后擴展詞的具體方法為:
從英文特征詞矩陣加權關聯(lián)規(guī)則集合中提取每個關聯(lián)規(guī)則Et→Eqt的前件Et作為跨語言查詢譯后擴展詞,計算所述擴展詞的權值Wexp,將擴展詞與譯后原查詢詞組合為新查詢再次檢索,實現(xiàn)中英跨語言查詢譯后前件擴展;
權值Wexp計算公式如式(6)所示:
式(6)中,max(EMConf(Et→Eqt))和max(EMInt(Et,Eqt))表示:當擴展詞重復出現(xiàn)在多個關聯(lián)規(guī)則Et→Eqt時,就會存在多個置信度和興趣度,這時取置信度的最大值max(EMConf(Et→Eqt))和興趣度的最大值max(EMInt(Et,Eqt))參與擴展詞權值計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經(jīng)學院,未經(jīng)廣西財經(jīng)學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711435247.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





