[發明專利]文本匹配方法、裝置及存儲介質有效

申請號：	202111472529.X	申請日：	2021-12-06
公開（公告）號：	CN113887192B	公開（公告）日：	2022-05-27
發明（設計）人：	葛鑫;姜鵬;趙宇;駱衛華	申請（專利權）人：	阿里巴巴達摩院（杭州）科技有限公司
主分類號：	G06F40/194	分類號：	G06F40/194
代理公司：	北京合智同創知識產權代理有限公司 11545	代理人：	李杰;林鑫
地址：	310023 浙江省杭州市余杭***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本匹配方法裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本匹配方法，其中，所述方法用于機器翻譯模型的訓練，所述方法包括：

獲取原文本和至少一個待匹配文本，所述原文本和所述待匹配文本均包含至少一個語句，其中，所述原文本和所述待匹配文本的語種不同；

在所述至少一個待匹配文本的語句中確定與所述原文本的語句相匹配的語句，并得到相互匹配的至少一個語句對；

根據所述原文本和所述待匹配文本中相互匹配的語句對的數量確定所述待匹配文本的相似度分值；

根據所述待匹配文本的相似度分值在所述至少一個待匹配文本中確定與所述原文本匹配的目標文本，所述原文本和所述目標文本為內容相同語種不同的文本；

其中，所述在所述至少一個待匹配文本的語句中確定與所述原文本的語句相匹配的語句，并得到相互匹配的至少一個語句對，包括：將所述原文本的語句與所述待匹配文本的語句進行編碼得到所述原文本的語句向量和所述待匹配文本的語句向量；對所述原文本的語句向量和所述待匹配文本的語句向量進行近鄰檢索，根據檢索結果確定相互匹配的至少一個語句對；

其中，對所述原文本的語句向量和所述待匹配文本的語句向量進行近鄰檢索，包括：將所述原文本的語句向量和所述待匹配文本的語句向量分別進行分割；對分割獲得的每一個向量段建立索引號，通過對索引號進行聚類檢索以實現所述原文本的語句向量和所述待匹配文本的語句向量的近鄰檢索。

2.根據權利要求1所述的方法，其中，所述方法還包括：

利用神經網絡模型對所述原文本的語句向量和所述待匹配文本的語句向量進行降維處理，得到降維后的所述原文本的語句向量和所述待匹配文本的語句向量。

3.根據權利要求1所述的方法，其中，所述根據所述原文本和所述待匹配文本中相互匹配的語句對的數量確定所述待匹配文本的相似度分值，包括：

為所述語句對增加文本對標記，所述文本對標記包括所述語句對中包含的語句所屬的原文本和待匹配文本；

根據所述文本對標記，確定所述待匹配文本與所述原文本相互匹配的語句對數量；

根據所述待匹配文本與所述原文本相互匹配的語句對數量計算所述待匹配文本的相似度分值。

4.根據權利要求3所述的方法，其中，所述根據所述待匹配文本與所述原文本相互匹配的語句對數量計算所述待匹配文本的相似度分值，包括：

將所述原文本的語句數量和所述待匹配文本的語句數量中的較大值作為基數；

所述待匹配文本與所述原文本相互匹配的語句對數量與所述基數的比值作為所述待匹配文本的相似度分值。

5.根據權利要求1所述的方法，其中，所述根據所述待匹配文本的相似度分值在所述至少一個待匹配文本中確定與所述原文本匹配的目標文本，包括：

按照相似度分值從大到小的順序對M個所述待匹配文本進行排序得到待匹配文本序列；