[發明專利]平行語料獲取方法、裝置、電子設備、及存儲介質有效
| 申請號: | 202010099153.1 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111310465B | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 曹軍;李磊;王明軒;朱培豪 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33;G06F16/951 |
| 代理公司: | 北京遠智匯知識產權代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 獲取 方法 裝置 電子設備 存儲 介質 | ||
1.一種平行語料獲取方法,其特征在于,包括:
根據網頁的網址中是否包含代表語種的語種信息片段識別存在平行語料的網頁;
對所述網頁進行分組;
對分組內的網頁基于網頁文本的主要語種的比例確定是否保留與主要語種有關的文本數據;
將分組內保留的文本數據根據不同語種兩兩組合,對各組合所包含的文本數據對進行文本對齊獲取平行語料;
其中,對各組合所包含的文本數據對進行文本對齊獲取平行語料包括:
確定該文本數據對的兩個語種對應的對齊雙向詞典;
對該文本數據對的第一文本數據中的各源語句,從該文本數據對的第二文本數據中取出一個比對語句,執行如下操作:
對所述源語句進行分詞和詞性過濾得到第一詞集,確定所述第一詞集中屬于所述對齊雙向詞典中的第一對齊詞集;以及對所述比對語句進行分詞和詞性過濾得到第二詞集,確定所述第二詞集中屬于所述對齊雙向詞典中的第二對齊詞集;
根據所述第一詞集的詞數、第一對齊詞集的詞數、所述第二詞集的詞數、以及所述第二對齊詞集的詞數確定所述源語句和所述比對語句之間的對齊度;
若所述對齊度大于預定對齊度閾值,則將所述源語句和所述比對語句組成的語句對作為平行語料。
2.根據權利要求1所述的方法,其特征在于,識別存在平行語料的網頁包括:
從預定網頁集中確定網址中包含代表語種的語種信息片段的網頁作為所述存在平行語料的網頁。
3.根據權利要求2所述的方法,其特征在于,在從預定網頁集中確定網址中包含代表語種的語種信息片段的網頁作為所述存在平行語料的網頁之前還包括:
從周期性抓取的網頁中,將當天新增的網頁和前N天抓取的網頁進行匯聚后作為所述預定網頁集,其中所述N為自然數。
4.根據權利要求2所述的方法,其特征在于,對所述網頁進行分組包括:
對所述網頁的網址去除所述語種信息片段后進行正則匹配,根據正則匹配結果對所述網頁進行分組。
5.根據權利要求4所述的方法,其特征在于,在對所述網頁進行分組之前還包括,獲取語種信息片段樣本集,根據所述樣本集生成正則表達式;
對所述網頁的網址去除所述語種信息片段后進行正則匹配包括:對所述網頁的網址去除所述語種信息片段后,基于所述正則表達式進行正則匹配。
6.根據權利要求1所述的方法,其特征在于,對分組內的網頁基于網頁文本的主要語種的比例確定是否保留與主要語種有關的文本數據包括:
對分組內的網頁,獲取該網頁內的網頁文本,對所述網頁文本進行語種比例成分檢測,若比例最高語種的比例小于預定比例閾值,則過濾掉該網頁,否則保留該網頁文本中該比例最高語種的文本數據。
7.根據權利要求1所述的方法,其特征在于,對各組合所包含的文本數據對進行文本對齊獲取平行語料之前還包括:對各組合所包含的兩個文本數據基于長度比例確定是否保留該組合。
8.根據權利要求1所述的方法,其特征在于,對該文本數據對的第一文本數據中的各源語句,從該文本數據對的第二文本數據中取出一個比對語句包括:
順次獲取所述第一文本數據中的一個語句作為所述源語句,若所述源語句的前一語句與所述第二文本數據中的第I語句之間的對齊度大于所述預定對齊度閾值,且所述I小于所述第二文本數據中語句數,則從所述第二文本數據中取出所述第I語句的下一語句作為所述對比語句,其中所述I為自然數。
9.根據權利要求1所述的方法,其特征在于,在對各組合所包含的文本數據對進行文本對齊獲取平行語料之后還包括:
篩選出對齊度大于預定第二對齊度閾值的平行語料,其中所述預定第二對齊度閾值大于所述預定對齊度閾值;
將所篩選的平行語料傳送給用于生成對齊雙向詞典的訓練模型進行訓練以優化所述訓練模型;
采用優化后的所述訓練模型生成新的對齊雙向詞典更新所述對齊雙向詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010099153.1/1.html,轉載請聲明來源鉆瓜專利網。





