[發明專利]基于權值比較與挖掘的跨語言譯后前件擴展方法有效
| 申請號: | 201811646503.0 | 申請日: | 2018-12-30 |
| 公開(公告)號: | CN109684463B | 公開(公告)日: | 2022-11-22 |
| 發明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經學院 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 比較 挖掘 語言 譯后前件 擴展 方法 | ||
本發明公開了基于權值比較與挖掘的跨語言譯后前件擴展方法,首先將源語言查詢翻譯為目標語言并檢索目標語言文檔,構建初檢用戶相關文檔并預處理,通過權值比較在文本文檔索引庫挖掘含有原查詢詞項的特征詞頻繁項集,用項集關聯度及項集的項目權值最大者或最大項目權值對候選項集剪枝,用卡方分析?置信度評價框架從頻繁項集挖掘含有原查詢詞項的特征詞關聯規則,將后件是原查詢詞項集合的關聯規則前件項集作為擴展詞,完成跨語言譯后前件擴展。本發明能克服現有加權關聯規則挖掘方法的缺陷,提高挖掘效率,挖掘與原查詢相關的譯后前件擴展詞,提高和改善跨語言檢索性能,在跨語言搜索引擎和web跨語言檢索系統中具有較高的應用價值和推廣前景。
技術領域
本發明屬于信息檢索領域,具體是基于權值比較與挖掘的跨語言譯后前件擴展方法。
背景技術
當前,網絡信息資源迅猛增長,成為了隱含巨大經濟價值和研究價值的網絡大數據。面對具有多語言性特點的網絡信息資源,網絡用戶以自己熟悉的語言的查詢表達式在網絡大數據資源中跨語言檢索其他語言信息資源時,經常遇到的查詢主題嚴重漂移和詞不匹配等問題,跨語言查詢擴展是解決這些問題的關鍵技術之一。
跨語言查詢擴展是提高和改善跨語言信息檢索性能的核心技術之一,能解決跨語言信息檢索中長期困擾的查詢主題嚴重漂移和詞不匹配等問題,指的是在跨語言信息檢索過程中,采用某種策略發現與原查詢相關的擴展詞,擴展詞和原查詢組合得到新查詢并再次檢索的過程。根據跨語言信息檢索的不同階段,跨語言查詢擴展分為查詢譯前擴展、查詢譯后擴展和混合式查詢擴展等三種。查詢譯前擴展模型指的是在源語言查詢翻譯為目標語言之前,采用某些策略從其他源語言文檔材料(或者初檢源語言文檔)中獲得源語言擴展詞實現譯前擴展,然后進行查詢翻譯,再檢索目標語言文檔。查詢譯后擴展發生在源語言查詢翻譯為目標語言之后,從跨語言初檢目標語言文檔或者其他目標語言文檔材料中獲取目標語言擴展詞實現譯后擴展,然后再次檢索目標語言文檔?;旌鲜讲樵償U展的實現要經過三次檢索,即首先進行查詢譯前擴展得到了源語言擴展詞實現譯前擴展后進行跨語言檢索,在此基礎上再進行查詢譯后擴展得到目標語言擴展詞,和譯后的目標語言查詢組合實現混合式擴展,最后再進行第三次檢索。
近年來,學者們對跨語言查詢擴展方法開展了卓有成效的研究,特別是對基于關聯模式挖掘的跨語言查詢譯后擴展方法的研究,取得了豐富的研究成果,例如,吳丹等提出的基于偽相關反饋的跨語言查詢譯后擴展方法(吳丹,何大慶,王惠臨.基于偽相關反饋的跨語言查詢擴展[J].情報學報,2010,29(2):232-239.),黃名選提出基于加權關聯模式挖掘的跨語言查詢擴展方法(黃名選.基于加權關聯模式挖掘的越-英跨語言查詢擴展[J].情報學報,2017,36(3):307-318.,黃名選.完全加權模式挖掘與相關反饋融合的印尼漢跨語言查詢擴展.小型微型計算機系統,2017,38(8):1783-1791.),等等,但還沒有最終完全解決跨語言信息檢索中長期困擾的查詢主題嚴重漂移和詞不匹配問題。
發明內容
本發明提出基于權值比較與挖掘的跨語言譯后前件擴展方法,應用于跨語言信息檢索領域,解決跨語言信息檢索中查詢主題漂移和詞不匹配問題,適用于實際的跨語言搜索引擎和web跨語言信息檢索系統,提高跨語言檢索性能。
本發明采用如下技術方案:
基于權值比較與挖掘的跨語言譯后前件擴展方法,包括下列步驟:
步驟1:源語言查詢跨語言首次檢索目標語言文檔,構建和預處理初檢用戶相關文檔集,具體步驟如下:
(1.1)源語言用戶查詢通過機器翻譯系統譯為目標語言,采用向量空間檢索模型檢索目標語言文本文檔集得到初檢前列目標語言文檔。
機器翻譯系統是:微軟必應機器翻譯接口Microsoft Translator API,或者,谷歌機器翻譯接口,等等。
(1.2)通過對初檢前列目標語言文本文檔進行相關性判斷構建初檢用戶相關文檔集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院,未經廣西財經學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811646503.0/2.html,轉載請聲明來源鉆瓜專利網。





