[發明專利]一種平行語料獲取方法、裝置、設備及存儲介質在審

申請號：	202110181644.5	申請日：	2021-02-08
公開（公告）號：	CN112906371A	公開（公告）日：	2021-06-04
發明（設計）人：	張闖;吳培昊	申請（專利權）人：	北京有竹居網絡技術有限公司
主分類號：	G06F40/211	分類號：	G06F40/211;G06F40/30
代理公司：	北京遠智匯知識產權代理有限公司 11659	代理人：	范坤坤
地址：	101299 北京市平***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種平行語料獲取方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開實施例公開了一種平行語料獲取方法、裝置、設備及存儲介質。該方法包括：拆分預先獲取的第一文本和第二文本，得到第一句子列表和第二句子列表，第一文本和第二文本為同一語種，用于描述同一內容；確定第一句子列表中每一個第一語句與第二句子列表中各第二語句之間的語義相似值，得到相似值矩陣；根據相似值矩陣確定第一語句與第二語句的映射關系，映射關系包括一對N、N對一和一對一中的至少一種，N為大于或等于2的整數；根據映射關系獲取與第一語句關聯的目標第二語句，并將第一語句與目標第二語句記為平行語料。上述方案基于句子間的語義相似值，確定語句間的映射關系，提高了關聯語句對的準確性，進而提高了平行語料的準確性。

技術領域

本公開實施例涉及自然語言處理技術，尤其涉及一種平行語料獲取方法、裝置、設備及存儲介質。

背景技術

文本簡化是指將包含難詞和復雜句式的文本，通過改寫來降低文本的難度，使知識水平低或者認知障礙的人群更易于理解和閱讀。隨著深度學習技術的發展，基于端到端的神經網絡模型在文本簡化中的應用越來越多。端到端的神經網絡模型通常需要大量復雜句到簡單句的平行語料來訓練。

傳統的獲取平行語料的方式主要包括距離法、基于TF-IDF向量求語句間相似度的方法以及基于word2vec向量的方法，但都無法準確的獲取平行語料。

公開內容

本公開實施例提供一種平行語料獲取方法、裝置、設備及存儲介質，可以提高平行語料的準確性。

第一方面，本公開實施例提供了一種平行語料獲取方法，包括：

拆分預先獲取的第一文本和第二文本，得到所述第一文本對應的第一句子列表和所述第二文本對應的第二句子列表，所述第一文本和第二文本為同一語種，用于描述同一內容；

確定所述第一句子列表中每一個第一語句與所述第二句子列表中各第二語句之間的語義相似值，得到相似值矩陣；

根據所述相似值矩陣確定所述第一語句與所述第二語句的映射關系，所述映射關系包括一對N、N對一和一對一中的至少一種，N為大于或等于2的整數；

根據所述映射關系獲取與所述第一語句關聯的目標第二語句，并將所述第一語句與所述目標第二語句記為平行語料。