[發(fā)明專利]一種面向跨語言知識(shí)圖譜的漢泰實(shí)體對(duì)齊方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010578711.2 | 申請(qǐng)日: | 2020-06-23 |
| 公開(公告)號(hào): | CN111723587A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 黃永忠;吳輝文;莊浩宇;徐鑫宇;張晨昊 | 申請(qǐng)(專利權(quán))人: | 桂林電子科技大學(xué) |
| 主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06F40/295;G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 桂林市華杰專利商標(biāo)事務(wù)所有限責(zé)任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 廣西*** | 國(guó)省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 語言 知識(shí) 圖譜 實(shí)體 對(duì)齊 方法 | ||
1.一種面向跨語言知識(shí)圖譜的漢泰實(shí)體對(duì)齊方法,其特征在于,包括如下步驟:
1)雙語數(shù)據(jù)集獲取:從Wikidata、YAGO多語言知識(shí)庫(kù)或各大漢泰雙語網(wǎng)站中,獲取漢泰雙語對(duì)齊數(shù)據(jù)集,數(shù)據(jù)集中都為對(duì)齊的漢泰雙語句子,且漢語句子中存在的實(shí)體可在泰語句子中找到其相對(duì)齊的實(shí)體;
2)機(jī)器翻譯模型構(gòu)建與訓(xùn)練:構(gòu)建Transformer 翻譯模型并將步驟1)中獲取的雙語數(shù)據(jù)集,通過構(gòu)建好的Transformer 翻譯模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的漢泰翻譯模型,過程為:
1-2)數(shù)據(jù)預(yù)處理:將步驟1)獲取的漢泰雙語數(shù)據(jù)集進(jìn)行預(yù)處理,轉(zhuǎn)換成機(jī)器翻譯模型訓(xùn)練的標(biāo)準(zhǔn)數(shù)據(jù)格式,先把雙語數(shù)據(jù)集分為漢語句子文件Ch.txt,泰語句子文件Th.txt,Ch.txt中的每一個(gè)句子都對(duì)應(yīng)于Th.txt中的每一個(gè)句子;
2-2)分詞:漢語數(shù)據(jù)集采用jieba分詞工具進(jìn)行分詞,泰語數(shù)據(jù)集采用cutkum工具進(jìn)行分詞,詞與詞之間以一個(gè)空格進(jìn)行分隔;
3-2)構(gòu)建Transformer 翻譯模型:Transformer模型采用Seq2Seq 模型中典型的編碼器-解碼器即Encoder-Decoder的框架結(jié)構(gòu),但與Seq2Seq模型不同的是,Transformer的編碼器和解碼器中沒有使用循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),其編碼器和解碼器的主要結(jié)構(gòu)如下所述:
1-3-2)編碼器:Transformer模型中的編碼層由一組相同的層堆疊組成,每個(gè)層由多頭注意力即Multi-Head Attention和全連接的前饋即Feed-Forward網(wǎng)絡(luò)這兩個(gè)子層構(gòu)成,所述多頭注意力在模型中用于實(shí)現(xiàn)Self-Attention, Multi-Head Attention機(jī)制將輸入進(jìn)行多路線性變換,然后分別計(jì)算Attention的結(jié)果,并將所有的結(jié)果進(jìn)行拼接,再一次進(jìn)行線性變換并輸出,其中Attention使用的是點(diǎn)積即Dot-Product,在點(diǎn)積后進(jìn)行了scale的處理,所述全連接的前饋網(wǎng)絡(luò)會(huì)對(duì)序列中的每個(gè)位置進(jìn)行相同的計(jì)算即Position-wise,全連接的前饋網(wǎng)絡(luò)采用了兩次線性變換中間加以ReLU激活的結(jié)構(gòu);
2-3-2)解碼器:解碼器和編碼器的結(jié)構(gòu)相類似,只是解碼器的層比編碼器的層再增加了一個(gè)多頭注意力的子層,用以實(shí)現(xiàn)對(duì)編碼器輸出的Attention;
3-3-2)Transformer翻譯模型構(gòu)建:采用百度的PaddlePaddle、Pytorch或TensorFlow框架進(jìn)行構(gòu)建;
4-3-2)模型構(gòu)建完成后,將步驟2-2)中分詞后的數(shù)據(jù)加載到上述Transformer翻譯模型中進(jìn)行訓(xùn)練,得到訓(xùn)練好的翻譯模型即漢泰翻譯模型;
3)實(shí)體抽取:選取目前開源的漢語實(shí)體抽取工具或采用常用的漢語命名實(shí)體識(shí)別模型抽取出漢語句子中的實(shí)體;
4)實(shí)體翻譯與匹配:實(shí)體翻譯采用目前常用的翻譯軟件與Transformer 翻譯模型結(jié)合使用,具體過程如下:
1-4)首先采用目前常用的翻譯軟件將步驟3)中抽取的漢語實(shí)體NER-A進(jìn)行翻譯,得到翻譯后的實(shí)體NER1-A,然后和相應(yīng)的泰語句子進(jìn)行匹配,若匹配成功,則進(jìn)行下一個(gè)實(shí)體對(duì)齊,若匹配失敗,則轉(zhuǎn)入步驟2-4);
2-4)將步驟1-4)匹配失敗的實(shí)體NER-A利用步驟4-3-2)中訓(xùn)練好的漢泰翻譯模型進(jìn)行翻譯,得到翻譯后的實(shí)體NER2-A,再與對(duì)應(yīng)的泰語句子進(jìn)行匹配,匹配成功,則得到漢語句子中的實(shí)體NER-A與泰語句子中相對(duì)應(yīng)的實(shí)體NER-B;
3-4)最后,實(shí)現(xiàn)對(duì)齊的“NER-A:NER-B”,即完成漢泰雙語句子中的實(shí)體對(duì)齊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林電子科技大學(xué),未經(jīng)桂林電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010578711.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





