[發(fā)明專利]通過權(quán)值比較實(shí)現(xiàn)規(guī)則后件挖掘的跨語言查詢擴(kuò)展方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811646511.5 | 申請(qǐng)日: | 2018-12-30 |
| 公開(公告)號(hào): | CN109684464B | 公開(公告)日: | 2021-06-04 |
| 發(fā)明(設(shè)計(jì))人: | 黃名選 | 申請(qǐng)(專利權(quán))人: | 廣西財(cái)經(jīng)學(xué)院 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332 |
| 代理公司: | 廣西南寧公平知識(shí)產(chǎn)權(quán)代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通過 比較 實(shí)現(xiàn) 規(guī)則 挖掘 語言 查詢 擴(kuò)展 方法 | ||
本發(fā)明公開了通過權(quán)值比較實(shí)現(xiàn)規(guī)則后件挖掘的跨語言查詢擴(kuò)展方法,首先跨語言首次檢索構(gòu)建初檢相關(guān)反饋文檔集,再在該文檔集挖掘含有原查詢?cè)~項(xiàng)的頻繁項(xiàng)集,用項(xiàng)集關(guān)聯(lián)度值及項(xiàng)集的項(xiàng)目權(quán)值最大者或者最大項(xiàng)目權(quán)值對(duì)候選項(xiàng)集剪枝,采用卡方分析?置信度評(píng)價(jià)框架從頻繁項(xiàng)集中挖掘含有原查詢?cè)~項(xiàng)的文本特征詞關(guān)聯(lián)規(guī)則模式,將前件是原查詢?cè)~項(xiàng)集合的關(guān)聯(lián)規(guī)則后件項(xiàng)集作為查詢擴(kuò)展詞,實(shí)現(xiàn)跨語言查詢擴(kuò)展。本發(fā)明能克服現(xiàn)有加權(quán)關(guān)聯(lián)規(guī)則挖掘方法的缺陷,提高挖掘效率,能挖掘出與原查詢相關(guān)的擴(kuò)展詞,提高和改善跨語言信息檢索性能,減少檢索中查詢主題漂移和詞不匹配問題,在跨語言搜索引擎和web跨語言檢索系統(tǒng)中具有較好的應(yīng)用價(jià)值和推廣前景。
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索領(lǐng)域,具體是通過權(quán)值比較實(shí)現(xiàn)規(guī)則后件挖掘的跨語言查詢擴(kuò)展方法。
背景技術(shù)
當(dāng)前,具有多語言性特點(diǎn)的網(wǎng)絡(luò)信息資源迅猛增長,成為了隱含巨大經(jīng)濟(jì)價(jià)值和研究價(jià)值的網(wǎng)絡(luò)大數(shù)據(jù)。網(wǎng)絡(luò)用戶以自己熟悉的語言的查詢表達(dá)式在網(wǎng)絡(luò)大數(shù)據(jù)資源中檢索其他語言信息資源過程中遇到的問題是查詢主題嚴(yán)重漂移和詞不匹配等問題,跨語言查詢擴(kuò)展是解決這些問題的關(guān)鍵技術(shù)之一。
跨語言查詢擴(kuò)展是提高和改善跨語言信息檢索性能的核心技術(shù)之一,能解決跨語言信息檢索中長期困擾的查詢主題嚴(yán)重漂移和詞不匹配等問題,指的是在跨語言信息檢索過程中,采用某種策略發(fā)現(xiàn)與原查詢相關(guān)的擴(kuò)展詞,擴(kuò)展詞和原查詢組合得到新查詢并再次檢索的過程。近十幾年來,學(xué)者們對(duì)跨語言查詢擴(kuò)展方法開展了卓有成效的研究,取得了一些研究成果,例如,閉劍婷等提出的一種基于潛在語義分析的跨語言查詢擴(kuò)展方法(閉劍婷,蘇一丹.基于潛在語義分析的跨語言查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2009,35(10):49-53.),吳丹等提出一種基于偽相關(guān)反饋的跨語言查詢擴(kuò)展方法(吳丹,何大慶,王惠臨.基于偽相關(guān)反饋的跨語言查詢擴(kuò)展[J].情報(bào)學(xué)報(bào),2010,29(2):232-239.),等等,但還沒有最終完全解決跨語言信息檢索中查詢主題漂移和詞不匹配問題。
發(fā)明內(nèi)容
本發(fā)明提出了通過權(quán)值比較實(shí)現(xiàn)規(guī)則后件挖掘的跨語言查詢擴(kuò)展方法,應(yīng)用于實(shí)際的跨語言搜索引擎和web跨語言信息檢索系統(tǒng),能解決跨語言信息檢索中查詢主題漂移和詞不匹配問題,提高跨語言檢索性能。
本發(fā)明的技術(shù)方案如下:
通過權(quán)值比較實(shí)現(xiàn)規(guī)則后件挖掘的跨語言查詢擴(kuò)展方法,包括下列步驟:
步驟1:源語言查詢跨語言首次檢索目標(biāo)語言文檔,構(gòu)建和預(yù)處理初檢相關(guān)反饋文檔集。具體步驟:
(1-1)源語言用戶查詢通過機(jī)器翻譯系統(tǒng)譯為目標(biāo)語言,采用向量空間檢索模型檢索目標(biāo)語言文本文檔集得到初檢前列目標(biāo)語言文檔。
機(jī)器翻譯系統(tǒng)是:微軟必應(yīng)機(jī)器翻譯接口Microsoft Translator API,或者,谷歌機(jī)器翻譯接口,等等。
(1-2)通過對(duì)初檢前列目標(biāo)語言文檔進(jìn)行相關(guān)性判斷構(gòu)建初檢相關(guān)反饋文檔集。
(1-3)預(yù)處理初檢相關(guān)反饋文檔集,構(gòu)建目標(biāo)語言文本文檔索引庫和特征詞庫;
所述預(yù)處理方法是:去除停用詞,提取特征詞并按式(1)計(jì)算特征詞權(quán)值;
式(1)中,wij表示文檔di中特征詞tj的權(quán)值,tfj,i表示特征詞tj在文檔di中的詞頻,本發(fā)明將tfj,i進(jìn)行標(biāo)準(zhǔn)化處理,所述標(biāo)準(zhǔn)化處理是指將文檔di中每個(gè)特征詞所述的tfj,i除以文檔di的最大詞頻,idfj是逆文檔頻度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣西財(cái)經(jīng)學(xué)院,未經(jīng)廣西財(cái)經(jīng)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811646511.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 互動(dòng)業(yè)務(wù)終端、實(shí)現(xiàn)系統(tǒng)及實(shí)現(xiàn)方法
- 街景地圖的實(shí)現(xiàn)方法和實(shí)現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實(shí)現(xiàn)裝置及其圖像實(shí)現(xiàn)方法
- 增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)方法以及實(shí)現(xiàn)裝置
- 軟件架構(gòu)的實(shí)現(xiàn)方法和實(shí)現(xiàn)平臺(tái)
- 數(shù)值預(yù)報(bào)的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 輸入設(shè)備實(shí)現(xiàn)方法及其實(shí)現(xiàn)裝置
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋





