[發明專利]平行語料對齊方法、裝置、存儲介質及電子設備有效
| 申請號: | 202011364569.8 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112541062B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 劉譯璟;孫偉;蘇海波;周澤彪;張文學;李崇嶺;左云鵬;高體偉 | 申請(專利權)人: | 北京百分點科技集團股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/216;G06F40/30 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 溫易娜 |
| 地址: | 100096 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 對齊 方法 裝置 存儲 介質 電子設備 | ||
本公開涉及一種平行語料對齊方法、裝置、存儲介質及電子設備,所述方法包括:確定待對齊源文本和待對齊目標文本的初始化搜索范圍對,并將所述初始化搜索范圍對作為目標搜索范圍對,在與所述目標搜索范圍對對應的文本中確定目標對,確定目標對在待對齊源文本和待對齊目標文本中的位置序號,基于位置序號重新確定新的目標搜索范圍對,并返回執行步驟所述在與所述目標搜索范圍對對應的文本中確定目標對的步驟,直至得到的新的目標搜索范圍對均為空,解決了相關技術中對齊效率較低的問題。
技術領域
本公開涉及語言處理技術領域,具體地,涉及一種平行語料對齊方法、裝置、存儲介質及電子設備。
背景技術
在相關技術中,通過詞、短語、句子三種粒度計算詞之間、短語之間、句子之間的相似度,進而構建平行句對,雖然此種對齊方式有較高的準確率,但是,在基于詞、短語、句子的進行對齊時,因對齊計算量較大,也將導致對齊的效率較低。
發明內容
本公開的目的是提供一種平行語料對齊方法、裝置、存儲介質及電子設備,解決了相關技術中對齊效率較低的問題。
為了實現上述目的,第一方面,本公開提供一種平行語料對齊方法,所述方法包括:
確定待對齊源文本和待對齊目標文本的初始化搜索范圍對,并將所述初始化搜索范圍對作為目標搜索范圍對,其中,所述待對齊源文本包括多個第一子源文本,所述待對齊目標文本包括多個第二子目標文本,所述目標搜索范圍對包括與所述待對齊源文本對應的第一搜索范圍和與所述待對齊目標文本對應的第二搜索范圍;
在與所述目標搜索范圍對對應的文本中確定目標對,其中,所述目標對包括相似度值最高的第一子源文本和第二子目標文本;
確定所述目標對中包括的第一子源文本在所述待對齊源文本中的第一位置序號,以及所述目標對中包括的第二子目標文本在所述待對齊目標文本中的第二位置序號;
根據所述第一位置序號對第一搜索范圍進行劃分得到兩個新的第一搜索范圍,根據所述第二位置序號對第二搜索范圍進行劃分得到兩個新的第二搜索范圍;
將得到的兩個新的第一搜索范圍與兩個新的第二搜索范圍進行組合,以分別得到兩個新的目標搜索范圍對,并返回執行步驟所述在與所述目標搜索范圍對對應的文本中確定目標對的步驟,直至得到的新的目標搜索范圍對均為空。
可選地,在所述第一子源文本為段落,且所述第二子目標文本為段落的情況下,所述方法還包括:
確定每個段落的至少一個關鍵詞;
將每個段落對應的至少一個關鍵詞進行拼接,得到該段落對應的字符串;
所述在與所述目標搜索范圍對對應的文本中確定目標對包括:
將所述目標搜索范圍對中第一搜索范圍中對應的所有段落的字符串與第二搜索范圍中對應的所有段落的字符串進行相似度計算,得到多個第一相似度值;
將第一相似度值最高的兩個段落確定為目標對。
可選地,所述確定每個段落的至少一個關鍵詞包括:
針對每個段落中的每個詞匯,計算該詞匯在該段落中的出現頻率和逆段落頻率;
針對每個段落中的每個詞匯,根據該段落中該詞匯的出現頻率和逆段落頻率,確定該詞匯的重要性分數;
基于每個段落中每個詞匯的重要性分數,確定該段落中的至少一個關鍵詞。
可選地,在所述第一子源文本為句子,且所述第二子目標文本為句子的情況下,所述在所述目標搜索范圍對中對應的對象中確定目標對包括:
將所述目標搜索范圍對中第一搜索范圍中對應的所有句子與第二搜索范圍中對應的所有句子進行相似度計算,得到多個第二相似度值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百分點科技集團股份有限公司,未經北京百分點科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011364569.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:機器人
- 下一篇:一種多端口高速數據同步傳輸方法





