[發明專利]基于雙語詞典映射指導的跨語言信息檢索方法有效
| 申請號: | 202110344892.7 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113076398B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 余正濤;李巖;郭軍軍;線巖團;黃于欣;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/30 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙語 詞典 映射 指導 語言 信息 檢索 方法 | ||
1.基于雙語詞典映射指導的跨語言信息檢索方法,其特征在于:首先利用詞映射生成查詢輔助句實現跨語言的語義對齊,然后利用雙語交互注意力來獲取查詢的跨語言特征表示,最后利用雙語交互排序模型獲得查詢和文檔的匹配分數實現跨語言信息檢索;
所述方法的具體步驟如下:
Step1、將英越CLIR公共數據集中的英語查詢翻譯為漢語查詢,通過人工篩選和校對構建漢越CLIR數據集;同時對英法、英菲、英斯三種CLIR公共數據集進行預處理;
Step2、將Step1預處理過的數據利用預先構建的雙語映射詞典,基于詞級映射分別構造查詢輔助句;然后利用共享Transformer分別獲取查詢、輔助句及文檔的上下文表示,同時借助查詢與輔助句之間的雙語交互注意力機制獲得查詢的跨語言特征表示;最后利用雙語交互排序模型獲得查詢和文檔的匹配分數實現跨語言信息檢索;
所述步驟Step2包括:
Step2.1、查詢輔助句的生成:使用雙語映射詞典基于詞級映射來生成查詢輔助句,進而保留查詢中大部分關鍵詞的準確信息,如公式(1)所示:
其中,D表示雙語映射詞典;map()表示詞級映射函數;xi表示查詢中的第i個詞;yi表示詞映射之后查詢輔助句中的第i個詞;
Step2.2、給定一個查詢qzh=(x1,x2,…,x|q|)和文檔d=(z1,z2,…,z|d|),其中,|q|和|d|表示查詢和文檔的長度;首先根據Step2.1利用雙語映射詞典基于詞級映射生成查詢輔助句的qvi=(y1,y2,…,y|q|);然后將每個句子的每個單詞表示成n維詞向量,如公式(2)-(4)所示:
Qz=[Eqz(x1);Eqz(x2);…;Eqz(x|q|)] (2)
Qv=[Eqv(y1);Eqv(y2);…;Eqv(y|q|)] (3)
D=[Ed(z1);Ed(z2);…;Ed(z|d|)] (4)
其中,Qz∈Rn×|q|、Qv∈Rn×|q|和D∈Rn×|d|,分別表示查詢、查詢輔助句和文檔的嵌入特征表示矩陣;xi、yi和zi表示查詢、查詢輔助句及文檔的第i個詞;Eqz、Eqv和Ed分別表示查詢、查詢輔助句及文檔的嵌入函數,嵌入函數能將每一個輸入序列中的每個詞轉化為對應的n維詞向量;“分號”表示連接操作符;
Step2.3、為了獲得查詢、查詢輔助句及文檔的上下文表示,使用了基于Transformer的共享編碼模塊;該編碼模塊共由6個相同的層堆疊在一起,每一層又分為兩個子層;第一個子層是一個多頭的自注意力機制,第二個子層是一個全連接前饋網絡;在兩個子層外面都添加了一個殘差連接,然后進行了層歸一化的操作;具體對查詢、輔助句及文檔的編碼過程如公式(5)-(7)所示;
其中,及分別表示查詢、文檔及查詢輔助句的上下文特征表示序列;Transforme rEncoder()表示對輸入序列的編碼映射函數;
獲取到查詢、文檔及查詢輔助句的上下文特征表示之后,將上下文表示進行歸一化,使得每個特征向量都成為等于1的L2范數,這樣使得任何兩個特征向量的內積等于它們的余弦相似度;
Step2.4、在查詢和輔助句之間定義了一個雙語交互注意力機制,該機制使得查詢每一個詞的特征表征通過只關注來自輔助句的相關詞的特征表征來表示;基于Transformer的共享編碼模塊獲取到查詢和輔助句的特征表示序列和然后利用輔助句的每一個特征表示的加權平均值來表示查詢的第i個詞的跨語言特征表示ci,計算如公式(8)所示:
其中,ci表示查詢的第i個詞的跨語言特征表示;注意力權重αi,j表示查詢輔助句的第j個詞與查詢中第i個詞的注意力權重,它是通過在相應的匹配分數mi,j上計算softmax函數而獲得的,如公式(9)所示;
匹配分數mi,j又是基于特征向量和的雙線性乘積來計算的,具體計算過程如公式(10)所示:
其中,W∈R|q|×|q|和b∈R是可訓練的注意力參數;
Step2.5、基于雙語交互注意力機制得到查詢句中每一個詞的跨語言特征表示ci之后,使用多頭自注意力機制進行特征再提取;具體如公式(11)所示:
其中,self_attention()表示多頭自注意力機制的映射函數;表示查詢的第i個詞的跨語言上下文特征表示;
利用多頭自注意力機制來獲取一個序列的上下文特征表示時,使用點積注意來獲取注意分數,具體計算方式如公式(12)所示:
其中,Q∈Rl×n,K∈Rl×n,V∈Rl×n分別表示查詢矩陣,鍵矩陣,值矩陣;l表示輸入查詢句的序列長度,n表示特征維度;
具體來說,多頭注意力機制分別對dq維的查詢、dk維的鍵和dv維的值進行線性投影; 在每個查詢、鍵和值的投影上并行地執行點積注意,最后將這些注意力的結果拼接起來,并再次進行線性投影,從而獲取到新的上下文特征表示;多頭注意力機制如公式(13)、(14)所示:
其中,dq=dk=dv=n/h,h表示頭的數量;
Step2.6、給定查詢經過雙語交互注意力機制之后的表示矩陣,以及文檔經過共享transformer編碼之后的上下文表示矩陣,通過雙語交互排序模塊計算查詢和文檔之間的匹配關聯得分,關聯得分通過最大相似度MaxSim操作符的總和求得;
利用兩個表示矩陣和交互排序來估計查詢和文檔的匹配得分,記為scoreq,d,這是每一個查詢詞和文檔詞最大相似度的總和,如公式(15)所示:
Step2.7、通過成對排名網絡損失最大化相關文檔和不相關文檔之間的分數差異來訓練跨語言深度關聯匹配模型。
2.根據權利要求1所述的基于雙語詞典映射指導的跨語言信息檢索方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、利用谷歌翻譯的接口將英-越CLIR公共數據集中的英語查詢翻譯為漢語查詢,通過人工篩選和校對,將翻譯質量差以及翻譯錯誤的查詢句進行刪除;
Step1.2、將漢語查詢中的主題詞刪除,將每個文檔長度限制在文章的前250個詞以內,同時將查詢和文檔中的亂碼符號以及停用詞進行刪除;
Step1.3、根據查詢和文檔對應的編號以及相關性標簽r,其中r∈{0,1},獲得英法、英菲、英斯、漢越四種CLIR數據集的三元組包括:查詢、正樣本文檔、負樣本文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110344892.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種紙漿模塑的平板UV打印方法
- 下一篇:一種抗靜電阻燃絲絨布織造工藝





