[發明專利]平行語料對齊方法、裝置、存儲介質及電子設備有效
| 申請號: | 202011364569.8 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112541062B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 劉譯璟;孫偉;蘇海波;周澤彪;張文學;李崇嶺;左云鵬;高體偉 | 申請(專利權)人: | 北京百分點科技集團股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/216;G06F40/30 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 溫易娜 |
| 地址: | 100096 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 對齊 方法 裝置 存儲 介質 電子設備 | ||
1.一種平行語料對齊方法,其特征在于,所述方法包括:
確定待對齊源文本和待對齊目標文本的初始化搜索范圍對,并將所述初始化搜索范圍對作為目標搜索范圍對,其中,所述待對齊源文本包括多個第一子源文本,所述待對齊目標文本包括多個第二子目標文本,所述目標搜索范圍對包括與所述待對齊源文本對應的第一搜索范圍和與所述待對齊目標文本對應的第二搜索范圍;
在與所述目標搜索范圍對對應的文本中確定目標對,其中,所述目標對包括相似度值最高的第一子源文本和第二子目標文本;
確定所述目標對中包括的第一子源文本在所述待對齊源文本中的第一位置序號,以及所述目標對中包括的第二子目標文本在所述待對齊目標文本中的第二位置序號;
根據所述第一位置序號對第一搜索范圍進行劃分得到兩個新的第一搜索范圍,根據所述第二位置序號對第二搜索范圍進行劃分得到兩個新的第二搜索范圍;
將得到的兩個新的第一搜索范圍與兩個新的第二搜索范圍進行組合,以分別得到兩個新的目標搜索范圍對,并返回執行步驟所述在與所述目標搜索范圍對對應的文本中確定目標對的步驟,直至得到的新的目標搜索范圍對均為空。
2.根據權利要求1所述的方法,其特征在于,在所述第一子源文本為段落,且所述第二子目標文本為段落的情況下,所述方法還包括:
確定每個段落的至少一個關鍵詞;
將每個段落對應的至少一個關鍵詞進行拼接,得到該段落對應的字符串;
所述在與所述目標搜索范圍對對應的文本中確定目標對包括:
將所述目標搜索范圍對中第一搜索范圍中對應的所有段落的字符串與第二搜索范圍中對應的所有段落的字符串進行相似度計算,得到多個第一相似度值;
將第一相似度值最高的兩個段落確定為目標對。
3.根據權利要求2所述的方法,其特征在于,所述確定每個段落的至少一個關鍵詞包括:
針對每個段落中的每個詞匯,計算該詞匯在該段落中的出現頻率和逆段落頻率;
針對每個段落中的每個詞匯,根據該段落中該詞匯的出現頻率和逆段落頻率,確定該詞匯的重要性分數;
基于每個段落中每個詞匯的重要性分數,確定該段落中的至少一個關鍵詞。
4.根據權利要求1所述的方法,其特征在于,在所述第一子源文本為句子,且所述第二子目標文本為句子的情況下,所述在所述目標搜索范圍對中對應的對象中確定目標對包括:
將所述目標搜索范圍對中第一搜索范圍中對應的所有句子與第二搜索范圍中對應的所有句子進行相似度計算,得到多個第二相似度值;
將第二相似度值最高的兩個句子確定為目標對。
5.根據權利要求2或4所述的方法,其特征在于,采用以下方式進行相似度計算:
提取第一文本和第二文本對應的語義向量;
根據所述第一文本和所述第二文本的語義向量,計算所述第一文本與所述第二文本之間的余弦距離,將該余弦距離作為相似度值。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取初始源文本和初始目標文本;
分別對所述初始源文本和所述初始目標文本進行預處理,以分別得到與所述初始源文本對應的待對齊源文本,以及與所述初始目標文本對應的待對齊目標文本,其中,所述預處理包括分段處理或分句處理。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
將每一次確定的所述目標對加入對齊列表中;
在所述得到的新的目標搜索范圍均為空的情況下,輸出所述對齊列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百分點科技集團股份有限公司,未經北京百分點科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011364569.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:機器人
- 下一篇:一種多端口高速數據同步傳輸方法





