[發(fā)明專利]基于權(quán)值比較與挖掘的跨語(yǔ)言譯后前件擴(kuò)展方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811646503.0 | 申請(qǐng)日: | 2018-12-30 |
| 公開(kāi)(公告)號(hào): | CN109684463B | 公開(kāi)(公告)日: | 2022-11-22 |
| 發(fā)明(設(shè)計(jì))人: | 黃名選 | 申請(qǐng)(專利權(quán))人: | 廣西財(cái)經(jīng)學(xué)院 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332 |
| 代理公司: | 廣西南寧公平知識(shí)產(chǎn)權(quán)代理有限公司 45104 | 代理人: | 黃春蓮 |
| 地址: | 530000 廣西壯族*** | 國(guó)省代碼: | 廣西;45 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 比較 挖掘 語(yǔ)言 譯后前件 擴(kuò)展 方法 | ||
1.基于權(quán)值比較與挖掘的跨語(yǔ)言譯后前件擴(kuò)展方法,其特征在于,包括下列步驟:
步驟1:源語(yǔ)言用戶查詢通過(guò)機(jī)器翻譯系統(tǒng)譯為目標(biāo)語(yǔ)言,采用向量空間檢索模型檢索目標(biāo)語(yǔ)言文本文檔集得到初檢前列目標(biāo)語(yǔ)言文檔,通過(guò)對(duì)初檢前列目標(biāo)語(yǔ)言文檔進(jìn)行相關(guān)性判斷構(gòu)建初檢用戶相關(guān)文檔集,預(yù)處理初檢用戶相關(guān)文檔集,構(gòu)建目標(biāo)語(yǔ)言文本文檔索引庫(kù)和文本特征詞庫(kù);
步驟2:通過(guò)項(xiàng)集權(quán)值比較在初檢用戶相關(guān)文檔集挖掘含有原查詢?cè)~項(xiàng)的頻繁項(xiàng)集,運(yùn)用項(xiàng)集關(guān)聯(lián)度值以及項(xiàng)集的項(xiàng)目權(quán)值最大者或者最大項(xiàng)目權(quán)值對(duì)項(xiàng)集進(jìn)行剪枝,具體步驟如下:
(2.1)挖掘文本特征詞1_頻繁項(xiàng)集L1,具體步驟如下:
(2.1.1)從文本特征詞庫(kù)中提取文本特征詞作為1_候選項(xiàng)集C1;
(2.1.2)掃描目標(biāo)語(yǔ)言文本文檔索引庫(kù),統(tǒng)計(jì)文本文檔總數(shù)n和統(tǒng)計(jì)C1的項(xiàng)集權(quán)值w[C1];
(2.1.3)計(jì)算最小權(quán)值支持閾值MWS;所述MWS計(jì)算公式如式(2)所示:
MWS=n×ms (2)
式(2)中,所述ms為最小支持度閾值,n為目標(biāo)語(yǔ)言文本文檔索引庫(kù)的文本文檔總數(shù);
(2.1.4)如果w[C1]≥MWS,則C1就是文本特征詞1_頻繁項(xiàng)集L1,添加到頻繁項(xiàng)集集合FIS;
(2.2)挖掘文本特征詞2_頻繁項(xiàng)集L2,具體步驟如下:
(2.2.1)采用Aproiri連接方法將文本特征詞1_頻繁項(xiàng)集L1自連接得到多個(gè)2_候選項(xiàng)集C2;
(2.2.2)剪枝不含原查詢?cè)~項(xiàng)的2_候選項(xiàng)集C2;
(2.2.3)對(duì)余下的2_候選項(xiàng)集C2,掃描目標(biāo)語(yǔ)言文本文檔索引庫(kù)分別統(tǒng)計(jì)各余下2_候選項(xiàng)集C2的項(xiàng)集權(quán)值w[C2];
(2.2.4)如果w[C2]≥MWS,則C2就是文本特征詞2_頻繁項(xiàng)集L2,添加到頻繁項(xiàng)集集合FIS;
(2.3)挖掘文本特征詞k_頻繁項(xiàng)集Lk,所述k≥2;具體步驟如下:
(2.3.1)采用Aproiri連接方法將文本特征詞(k-1)_頻繁項(xiàng)集Lk-1自連接得到多個(gè)k_候選項(xiàng)集Ck=(i1,i2,…,ik),所述k≥2;
(2.3.2)掃描目標(biāo)語(yǔ)言文本文檔索引庫(kù),分別統(tǒng)計(jì)各Ck的項(xiàng)集權(quán)值w[Ck]和各Ck中最大的項(xiàng)目權(quán)值wm,分別得到各Ck中最大的項(xiàng)目權(quán)值wm對(duì)應(yīng)的項(xiàng)目im,所述m∈(1,2,…,k);
(2.3.3)如果所述項(xiàng)目im對(duì)應(yīng)的1_項(xiàng)集(im)是非頻繁的,或者wm<MWS,則剪枝對(duì)應(yīng)的Ck;
(2.3.4)對(duì)于余下的各Ck,分別計(jì)算各Ck的項(xiàng)集關(guān)聯(lián)度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,該Ck就是文本特征詞k_頻繁項(xiàng)集Lk,添加到頻繁項(xiàng)集集合FIS;所述minIRe為最小項(xiàng)集關(guān)聯(lián)度閾值;所述IRe(Ck)的計(jì)算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含義如下:對(duì)于Ck=(i1,i2,…ik),k_候選項(xiàng)集Ck的各個(gè)項(xiàng)目i1,i2,…,ik分別單獨(dú)作為1_項(xiàng)集時(shí)對(duì)應(yīng)為(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分別表示1_項(xiàng)集(i1),(i2),…,(ik)中最小的1_項(xiàng)集權(quán)值和最大的1_項(xiàng)集權(quán)值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.3.5)如果文本特征詞k_頻繁項(xiàng)集Lk為空集,則文本特征詞頻繁項(xiàng)集挖掘結(jié)束,轉(zhuǎn)入如下步驟3,否則,k加1后轉(zhuǎn)入步驟(2.3.1)繼續(xù)順序循環(huán);
步驟3.采用卡方分析-置信度評(píng)價(jià)框架從頻繁項(xiàng)集集合FIS中每一個(gè)文本特征詞k_頻繁項(xiàng)集Lk挖掘含有原查詢?cè)~項(xiàng)的文本特征詞加權(quán)關(guān)聯(lián)規(guī)則模式,所述k≥2;具體方法如下:
從頻繁項(xiàng)集集合FIS中取出任意一個(gè)文本特征詞k_頻繁項(xiàng)集Lk,按照下面步驟挖掘每個(gè)Lk的所有含有原查詢?cè)~項(xiàng)的關(guān)聯(lián)規(guī)則模式:
(3.1)構(gòu)建Lk的所有真子集項(xiàng)集集合;
(3.2)從真子集項(xiàng)集集合中任意取出兩個(gè)真子集項(xiàng)集qt和Et,且qt∪Et=Lk,QTL為目標(biāo)語(yǔ)言原查詢?cè)~項(xiàng)集合,Et為不含原查詢?cè)~項(xiàng)的特征詞項(xiàng)集合,計(jì)算項(xiàng)集(qt,Et)的卡方值Chis(qt,Et),計(jì)算公式如式(4)所示:
式(4)中,w[(qt)]為項(xiàng)集qt在目標(biāo)語(yǔ)言文本文檔索引庫(kù)中項(xiàng)集權(quán)值,k1為項(xiàng)集qt的長(zhǎng)度,w[(Et)]為項(xiàng)集Et在目標(biāo)語(yǔ)言文本文檔索引庫(kù)中項(xiàng)集權(quán)值,k2為項(xiàng)集Et的長(zhǎng)度,w[(qt,Et)]為項(xiàng)集(qt,Et)在目標(biāo)語(yǔ)言文本文檔索引庫(kù)中的項(xiàng)集權(quán)值,kL為項(xiàng)集(qt,Et)的項(xiàng)目個(gè)數(shù),n為目標(biāo)語(yǔ)言文本文檔索引庫(kù)的文本文檔總數(shù);
(3.3)如果Chis(qt,Et)>0,則計(jì)算文本特征詞加權(quán)關(guān)聯(lián)規(guī)則置信度WConf(Et→qt);若WConf(Et→qt)≥最小置信度閾值mc,則關(guān)聯(lián)規(guī)則Et→qt是強(qiáng)加權(quán)關(guān)聯(lián)規(guī)則模式,添加到加權(quán)關(guān)聯(lián)規(guī)則模式集合WAR;所述WConf(Et→qt)的計(jì)算公式如式(5)所示:
式(5)中,w[(Et)],k2,w[(qt,Et)],kL的定義同式(4);
(3.4)如果Lk的每個(gè)真子集項(xiàng)集當(dāng)且僅當(dāng)都被取出一次,那么本次Lk中的文本特征詞加權(quán)關(guān)聯(lián)規(guī)則模式挖掘結(jié)束,這時(shí)從頻繁項(xiàng)集集合FIS中重新取出另一個(gè)Lk,并轉(zhuǎn)入步驟(3.1)順序執(zhí)行進(jìn)行另一個(gè)Lk的加權(quán)關(guān)聯(lián)規(guī)則模式挖掘,否則,轉(zhuǎn)入步驟(3.2)再順序執(zhí)行各個(gè)步驟;如果頻繁項(xiàng)集集合FIS中的每個(gè)Lk都已經(jīng)被取出挖掘加權(quán)關(guān)聯(lián)規(guī)則模式,則結(jié)束整個(gè)加權(quán)關(guān)聯(lián)規(guī)則模式挖掘,轉(zhuǎn)入如下步驟4;
步驟4:從加權(quán)關(guān)聯(lián)規(guī)則模式集合WAR中提取每個(gè)加權(quán)關(guān)聯(lián)規(guī)則Et→qt的前件Et作為譯后擴(kuò)展詞,并按式(6)計(jì)算譯后擴(kuò)展詞的權(quán)值we:
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)
式(6)中,max(WConf())、max(Chis())和max(IRe())分別表示加權(quán)關(guān)聯(lián)規(guī)則置信度、卡方值的最大值和關(guān)聯(lián)度的最大值;
步驟5.步驟4所述譯后擴(kuò)展詞與譯后原查詢?cè)~組合為新查詢?cè)俅螜z索目標(biāo)語(yǔ)言文檔,完成跨語(yǔ)言譯后前件擴(kuò)展。
2.如權(quán)利要求1所述的基于權(quán)值比較與挖掘的跨語(yǔ)言譯后前件擴(kuò)展方法,其特征在于,所述步驟1預(yù)處理初檢用戶相關(guān)文檔集的方法為:去除停用詞,提取特征詞并按式(1)計(jì)算特征詞權(quán)值;
式(1)中,wij表示文檔di中特征詞tj的權(quán)值,tfj,i表示特征詞tj在文檔di中的詞頻,idfj是逆文檔頻度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣西財(cái)經(jīng)學(xué)院,未經(jīng)廣西財(cái)經(jīng)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811646503.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





