[發明專利]基于完全加權規則后件的中英跨語言查詢譯后擴展方法有效
| 申請號: | 201711433112.6 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108170778B | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經學院 |
| 主分類號: | G06F16/2452 | 分類號: | G06F16/2452 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 完全 加權 規則 中英跨 語言 查詢 擴展 方法 | ||
1.基于完全加權規則后件的中英跨語言查詢譯后擴展方法,其特征在于:首先利用機器翻譯工具進行中英跨語言初次檢索,提取初檢前列英文文檔經用戶相關性判斷構建初檢相關文檔集,對初檢相關文檔集進行預處理,構建初檢英文文檔庫和特征詞庫;采用融合項集權值和頻度的完全加權項集支持度計算方法對初檢英文文檔庫挖掘含有譯后原查詢詞項的完全加權頻繁項集得到完全加權頻繁項集集合;然后,采用基于完全加權置信度-興趣度評價框架對所述完全加權頻繁項集挖掘前件是譯后原查詢詞項的英文特征詞間完全加權關聯規則,構建英文特征詞關聯規則庫,從所述英文特征詞關聯規則庫中提取規則后件作為中英跨語言譯后擴展詞,所述譯后擴展詞與譯后原查詢詞組合為新查詢再次檢索英文文檔;
所述采用融合項集權值和頻度的完全加權項集支持度計算方法對初檢英文文檔庫挖掘含有譯后原查詢詞項的完全加權頻繁項集方法如下:
(1)挖掘英文特征詞完全加權頻繁1_項集L1:
從所述特征詞庫中提取英文特征詞作為英文特征詞候選1_項集C1,計算C1的完全加權支持度awSup(C1),如果awSup(C1)≥支持度閾值ms,則C1為完全加權頻繁1_項集L1,將L1添加到完全加權頻繁項集集合awPIS;
awSup(C1)計算公式如式(2)所示:
式(2)中,為英文特征詞候選1_項集C1在初檢英文文檔庫中的項集權值累加所得的總和值,W為初檢英文文檔庫中所有英文特征詞權值的累加總和值,n為初檢英文文檔庫中英文文檔總篇數,為英文特征詞候選1_項集C1在初檢英文文檔庫中出現的頻度;
(2)挖掘英文特征詞完全加權頻繁k_項集Lk,所述的k≥2,具體步驟:
(2.1)采用Apriori連接方法將英文特征詞完全加權頻繁(k-1)_項集Lk-1進行自連接得到英文特征詞完全加權候選k_項集Ck,所述的k≥2;
(2.2)當挖掘到2_項集C2時,將不含譯后原查詢詞項的英文特征詞候選2_項集C2刪除,保留含有譯后原查詢詞項的候選2_項集C2;
(2.3)計算Ck的完全加權支持度awSup(Ck)如式(3)所示:
式(3)中,為英文特征詞候選k_項集Ck在初檢英文文檔庫中項集權值的累加總和值,為Ck在初檢英文文檔庫中的項集頻度,n為初檢英文文檔庫中的英文文檔總篇數,W為初檢英文文檔庫中所有英文特征詞權值的累加總和值,為英文特征詞完全加權候選k_項集Ck的項集長度,項集長度是指項集中的項目總個數;
(2.4)如果awSup(Ck)≥ms,則Ck就是英文特征詞完全加權頻繁k_項集Lk,添加到完全加權頻繁項集集合awPIS;
(2.5)若英文特征詞完全加權頻繁k_項集Lk為空集,則含有譯后原查詢詞項的完全加權頻繁項集挖掘結束,否則,k加1后轉入步驟(2.1)繼續循環;
所述采用基于完全加權置信度-興趣度評價框架對所述完全加權頻繁項集挖掘前件是譯后原查詢詞項的英文特征詞間完全加權關聯規則,構建英文特征詞關聯規則庫的具體步驟如下:
對于所述完全加權頻繁項集集合awPIS中每一個頻繁k_項集Lk,所述的k≥2,采用置信度-興趣度評價框架從頻繁k_項集Lk中挖掘前件是譯后原查詢詞項的英文特征詞完全加權關聯規則,步驟如下:
(1)取出頻繁k_項集Lk的所有真子集項集,構建Lk真子集項集集合;
(2)取出Lk真子集項集集合中任意兩個真子集項集qt和Et,且qt∪Et=Lk,所述的QEn為譯后原查詢詞項集合;
(3)計算英文特征詞完全加權興趣度awInt(qt,Et),如果awInt(qt,Et)≥最小興趣度閾值mi,則計算英文特征詞完全加權置信度awConf(qt→Et),若awConf(qt→Et)≥最小置信度閾值mc,則關聯規則qt→Et是強英文特征詞完全加權關聯規則,并加入到英文特征詞完全加權關聯規則集合awAR;awInt(qt,Et)和awConf(qt→Et)的計算公式如式(4)和式(5)所示:
式(4)和(5)中,n1、n2和n12分別為英文特征詞完全加權項集qt、Et以及項集(qt,Et)在初檢英文文檔庫中出現的頻度,k1、k2項k12分別為英文特征詞完全加權項集qt、Et以及項集(qt,Et)的項集長度,w1、w2和w12分別為英文特征詞完全加權項集qt、Et以及項集(qt,Et)在初檢英文文檔庫中的項集權值累加所得的總和值;
(4)返回步驟(2)循環執行,直到Lk的真子集項集集合中每個真子集項集當且僅當被取出一次,然后從完全加權頻繁項集集合awPIS中重新取出新的頻繁k_項集Lk,轉入步驟(1)進行新一輪完全加權關聯規則挖掘,直到完全加權頻繁項集集合awPIS中每一個頻繁k_項集Lk都已經被取出,則英文特征詞間完全加權關聯規則挖掘結束;
所述從英文特征詞關聯規則庫中提取規則后件作為中英跨語言譯后擴展詞的方法為:
從所述英文特征詞關聯規則庫中提取每個關聯規則qt→Et的后件Et作為跨語言查詢譯后后件擴展詞,按下式(6)計算該后件擴展詞的權值Wexp:
Wexp=0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)
式(6)表明,當擴展詞重復出現在多個關聯規則qt→Et時,則存在多個置信度和多個興趣度,這時分別取置信度的最大值max(awConf(qt→Et))和興趣度的最大值max(awInt(qt,Et))參與擴展詞權值計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院,未經廣西財經學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711433112.6/1.html,轉載請聲明來源鉆瓜專利網。





