[發明專利]一種平行語料獲取方法、裝置、設備及存儲介質在審
| 申請號: | 202110181644.5 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112906371A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 張闖;吳培昊 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30 |
| 代理公司: | 北京遠智匯知識產權代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 平行 語料 獲取 方法 裝置 設備 存儲 介質 | ||
本公開實施例公開了一種平行語料獲取方法、裝置、設備及存儲介質。該方法包括:拆分預先獲取的第一文本和第二文本,得到第一句子列表和第二句子列表,第一文本和第二文本為同一語種,用于描述同一內容;確定第一句子列表中每一個第一語句與第二句子列表中各第二語句之間的語義相似值,得到相似值矩陣;根據相似值矩陣確定第一語句與第二語句的映射關系,映射關系包括一對N、N對一和一對一中的至少一種,N為大于或等于2的整數;根據映射關系獲取與第一語句關聯的目標第二語句,并將第一語句與目標第二語句記為平行語料。上述方案基于句子間的語義相似值,確定語句間的映射關系,提高了關聯語句對的準確性,進而提高了平行語料的準確性。
技術領域
本公開實施例涉及自然語言處理技術,尤其涉及一種平行語料獲取方法、裝置、設備及存儲介質。
背景技術
文本簡化是指將包含難詞和復雜句式的文本,通過改寫來降低文本的難度,使知識水平低或者認知障礙的人群更易于理解和閱讀。隨著深度學習技術的發展,基于端到端的神經網絡模型在文本簡化中的應用越來越多。端到端的神經網絡模型通常需要大量復雜句到簡單句的平行語料來訓練。
傳統的獲取平行語料的方式主要包括距離法、基于TF-IDF向量求語句間相似度的方法以及基于word2vec向量的方法,但都無法準確的獲取平行語料。
公開內容
本公開實施例提供一種平行語料獲取方法、裝置、設備及存儲介質,可以提高平行語料的準確性。
第一方面,本公開實施例提供了一種平行語料獲取方法,包括:
拆分預先獲取的第一文本和第二文本,得到所述第一文本對應的第一句子列表和所述第二文本對應的第二句子列表,所述第一文本和第二文本為同一語種,用于描述同一內容;
確定所述第一句子列表中每一個第一語句與所述第二句子列表中各第二語句之間的語義相似值,得到相似值矩陣;
根據所述相似值矩陣確定所述第一語句與所述第二語句的映射關系,所述映射關系包括一對N、N對一和一對一中的至少一種,N為大于或等于2的整數;
根據所述映射關系獲取與所述第一語句關聯的目標第二語句,并將所述第一語句與所述目標第二語句記為平行語料。
第二方面,本公開實施例還提供了一種平行語料獲取裝置,包括:
拆分模塊,用于拆分預先獲取的第一文本和第二文本,得到所述第一文本對應的第一句子列表和所述第二文本對應的第二句子列表,所述第一文本和第二文本為同一語種,用于描述同一內容;
相似值矩陣確定模塊,用于確定所述第一句子列表中每一個第一語句與所述第二句子列表中各第二語句之間的語義相似值,得到相似值矩陣;
映射關系確定模塊,用于根據所述相似值矩陣確定所述第一語句與所述第二語句的映射關系,所述映射關系包括一對N、N對一和一對一中的至少一種,N為大于或等于2的整數;
平行語料獲取模塊,用于根據所述映射關系獲取與所述第一語句關聯的目標第二語句,并將所述第一語句與所述目標第二語句記為平行語料。
第三方面,本公開實施例還提供了一種電子設備,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行時實現如第一方面所述的平行語料獲取方法。
第四方面,本公開實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面所述的平行語料獲取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110181644.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:環狀圓盤上的波導縫隙陣列天線及組合天線
- 下一篇:一種顯示面板和電子設備





