[發(fā)明專利]平行語料獲取方法、裝置、電子設備、及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010099153.1 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111310465B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設計)人: | 曹軍;李磊;王明軒;朱培豪 | 申請(專利權)人: | 北京字節(jié)跳動網(wǎng)絡技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33;G06F16/951 |
| 代理公司: | 北京遠智匯知識產(chǎn)權代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 獲取 方法 裝置 電子設備 存儲 介質(zhì) | ||
1.一種平行語料獲取方法,其特征在于,包括:
根據(jù)網(wǎng)頁的網(wǎng)址中是否包含代表語種的語種信息片段識別存在平行語料的網(wǎng)頁;
對所述網(wǎng)頁進行分組;
對分組內(nèi)的網(wǎng)頁基于網(wǎng)頁文本的主要語種的比例確定是否保留與主要語種有關的文本數(shù)據(jù);
將分組內(nèi)保留的文本數(shù)據(jù)根據(jù)不同語種兩兩組合,對各組合所包含的文本數(shù)據(jù)對進行文本對齊獲取平行語料;
其中,對各組合所包含的文本數(shù)據(jù)對進行文本對齊獲取平行語料包括:
確定該文本數(shù)據(jù)對的兩個語種對應的對齊雙向詞典;
對該文本數(shù)據(jù)對的第一文本數(shù)據(jù)中的各源語句,從該文本數(shù)據(jù)對的第二文本數(shù)據(jù)中取出一個比對語句,執(zhí)行如下操作:
對所述源語句進行分詞和詞性過濾得到第一詞集,確定所述第一詞集中屬于所述對齊雙向詞典中的第一對齊詞集;以及對所述比對語句進行分詞和詞性過濾得到第二詞集,確定所述第二詞集中屬于所述對齊雙向詞典中的第二對齊詞集;
根據(jù)所述第一詞集的詞數(shù)、第一對齊詞集的詞數(shù)、所述第二詞集的詞數(shù)、以及所述第二對齊詞集的詞數(shù)確定所述源語句和所述比對語句之間的對齊度;
若所述對齊度大于預定對齊度閾值,則將所述源語句和所述比對語句組成的語句對作為平行語料。
2.根據(jù)權利要求1所述的方法,其特征在于,識別存在平行語料的網(wǎng)頁包括:
從預定網(wǎng)頁集中確定網(wǎng)址中包含代表語種的語種信息片段的網(wǎng)頁作為所述存在平行語料的網(wǎng)頁。
3.根據(jù)權利要求2所述的方法,其特征在于,在從預定網(wǎng)頁集中確定網(wǎng)址中包含代表語種的語種信息片段的網(wǎng)頁作為所述存在平行語料的網(wǎng)頁之前還包括:
從周期性抓取的網(wǎng)頁中,將當天新增的網(wǎng)頁和前N天抓取的網(wǎng)頁進行匯聚后作為所述預定網(wǎng)頁集,其中所述N為自然數(shù)。
4.根據(jù)權利要求2所述的方法,其特征在于,對所述網(wǎng)頁進行分組包括:
對所述網(wǎng)頁的網(wǎng)址去除所述語種信息片段后進行正則匹配,根據(jù)正則匹配結(jié)果對所述網(wǎng)頁進行分組。
5.根據(jù)權利要求4所述的方法,其特征在于,在對所述網(wǎng)頁進行分組之前還包括,獲取語種信息片段樣本集,根據(jù)所述樣本集生成正則表達式;
對所述網(wǎng)頁的網(wǎng)址去除所述語種信息片段后進行正則匹配包括:對所述網(wǎng)頁的網(wǎng)址去除所述語種信息片段后,基于所述正則表達式進行正則匹配。
6.根據(jù)權利要求1所述的方法,其特征在于,對分組內(nèi)的網(wǎng)頁基于網(wǎng)頁文本的主要語種的比例確定是否保留與主要語種有關的文本數(shù)據(jù)包括:
對分組內(nèi)的網(wǎng)頁,獲取該網(wǎng)頁內(nèi)的網(wǎng)頁文本,對所述網(wǎng)頁文本進行語種比例成分檢測,若比例最高語種的比例小于預定比例閾值,則過濾掉該網(wǎng)頁,否則保留該網(wǎng)頁文本中該比例最高語種的文本數(shù)據(jù)。
7.根據(jù)權利要求1所述的方法,其特征在于,對各組合所包含的文本數(shù)據(jù)對進行文本對齊獲取平行語料之前還包括:對各組合所包含的兩個文本數(shù)據(jù)基于長度比例確定是否保留該組合。
8.根據(jù)權利要求1所述的方法,其特征在于,對該文本數(shù)據(jù)對的第一文本數(shù)據(jù)中的各源語句,從該文本數(shù)據(jù)對的第二文本數(shù)據(jù)中取出一個比對語句包括:
順次獲取所述第一文本數(shù)據(jù)中的一個語句作為所述源語句,若所述源語句的前一語句與所述第二文本數(shù)據(jù)中的第I語句之間的對齊度大于所述預定對齊度閾值,且所述I小于所述第二文本數(shù)據(jù)中語句數(shù),則從所述第二文本數(shù)據(jù)中取出所述第I語句的下一語句作為所述對比語句,其中所述I為自然數(shù)。
9.根據(jù)權利要求1所述的方法,其特征在于,在對各組合所包含的文本數(shù)據(jù)對進行文本對齊獲取平行語料之后還包括:
篩選出對齊度大于預定第二對齊度閾值的平行語料,其中所述預定第二對齊度閾值大于所述預定對齊度閾值;
將所篩選的平行語料傳送給用于生成對齊雙向詞典的訓練模型進行訓練以優(yōu)化所述訓練模型;
采用優(yōu)化后的所述訓練模型生成新的對齊雙向詞典更新所述對齊雙向詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節(jié)跳動網(wǎng)絡技術有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010099153.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





