[發明專利]一種基于關鍵詞的中英雙語平行語料庫構建方法有效
| 申請號: | 201410618941.1 | 申請日: | 2014-11-07 |
| 公開(公告)號: | CN104408078B | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 程維 | 申請(專利權)人: | 北京第二外國語學院 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F17/27;G06F17/28 |
| 代理公司: | 北京知本村知識產權代理事務所 11039 | 代理人: | 周自清 |
| 地址: | 100020 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 雙語 平行 語料庫 構建 方法 | ||
1.一種基于關鍵詞的中英雙語平行語料庫構建方法,其特征在于,該方法包括如下步驟:
1)建設雙語平行語料庫:本步驟中包括如下分步驟:(1)源網站搜集、(2)通過網絡爬蟲獲取網站HTML、(3)對網站HTML進行解析、(4)對齊、(5)去除噪音、(6)得到平行語料庫;
2)自動對齊:利用開源工具GIZA++進行詞語對齊,得到對齊文本,借助對齊文本的信息,抽取所有的詞和詞組作為關鍵詞的一部分;
3)抽取關鍵詞:對詞和詞組進行過濾,過濾的方法為概率去除法或相似度去除法,所述概率去除法為將低概率的短語對齊對去除,所述相似度去除法為從書籍的雙語詞典中去和抽取出來的詞組進行相似度去除,經過過濾后的詞組加入到平行語料庫中;
4)構成基于關鍵詞的雙語平行語料庫;
在分步驟(4)中,對齊包括篇章對齊、斷句和句子對齊;
抽取關鍵詞時去除概率低于0.0001的短語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京第二外國語學院,未經北京第二外國語學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410618941.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:能夠檢測多項指標的人體健康檢測儀
- 下一篇:一種肌電針表面處理工藝





