[發明專利]一種語料庫眾包對齊的交互系統在審
| 申請號: | 201711416123.3 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN108009138A | 公開(公告)日: | 2018-05-08 |
| 發明(設計)人: | 梁鎮爽 | 申請(專利權)人: | 中譯語通科技(青島)有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266000 山東省青島市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語料庫 對齊 交互 系統 | ||
一種語料庫眾包對齊的交互方法,包括確定語種方向和任務數量,系統從語料庫中隨機抽取第一任務發給第一客戶端,第一客戶端對第一任務進行處理,并將處理結果反饋給系統,將不對齊語料送入糾錯庫中,并生成第二任務,系統從糾錯并抽取第二任務發送給第二客戶端,第二客戶端對第二任務進行處理,并將處理結果反饋給系統,將處理后的語料送入語料儲存數據庫中,并生成第三任務,第三客戶端對第三任務進行處理,系統將第三任務處理成功的語料存入最終數據庫中,將處理失敗的語料回發至糾錯庫,并回到第二任務,通過這種方法可以節省人工,能夠由機器代替斷句、對齊的環節,人工只需要負責對齊后的審校工作即可。
技術領域
本發明涉及一種語料庫眾包對齊的交互系統。
背景技術
語料庫是自然語言處理和機器翻譯領域最重要的基礎研究資源。其中,雙語平行語料庫尤為珍貴。目前國內外尚無大規模建設雙語平行語料庫的先例,主要是因為雙語平行語料庫的獲取難度頗高。雙語平行語料庫的來源主要有互聯網和傳統翻譯公司的積累。
通過互聯網采集到的語料,篇章級的雙語語料數量占較多的比重。因此,還需要對篇章級語料進行對齊和斷句處理,使其成為一句對的標準平行語料,才能應用到業務研究中去。
以往的對齊方式為采用眾包模式純人工處理,而本專利則在機器處理的基礎上,僅采用人工進行校對審核,這樣極大的減少了人。
發明內容
針對以上問題,本發明提供一種語料庫眾包對齊的交互系統,所需采用的技術方案是,
一種語料庫眾包對齊的交互系統,其特征在于,包括以下步驟,
(1)確定語種方向和任務數量;
(2)系統從語料庫中隨機抽取第一任務,將第一任務分發給第一客戶端;
(3)第一客戶端對第一任務進行處理,并將處理結果反饋給系統;
(4)如果審校結果為語料不對齊,將該語料送入糾錯庫中,并生成第二任務,如果審校結果為語料對齊,則將該語料進行步驟(6);
(5)系統從糾錯庫中抽取第二任務,并將第二任務發送給第二客戶端;
(6)第二客戶端對第二任務進行處理;并將處理結果反饋給系統;
(7)系統將經過第二任務處理后的語料送入語料儲存數據庫中,并生成第三任務;
(8)系統從語料儲存數據庫中隨機抽取第三任務發送給第三客戶端;
(9)第三客戶端對第三任務進行處理,并將處理結果反饋給系統;
(10)系統將第三任務處理成功的語料存入最終數據庫中,將第三任務處理失敗的語料回發至糾錯庫,并回到第二任務。
在上采用以上技術方案的同時,本發明還需采用進一步的技術方案,
第一任務是指將語料庫中不同語種的信息進行對齊。
第二任務是指將糾錯庫中不同語種的信息進行對齊。
第三任務是指從預料存儲數據庫中抽取不同語種的信息進行對齊校對。
經過第三任務處理過的語料在糾錯庫中被添加第一優先級標記。
所述第三任務的抽取概率為1:80~1:160。
所述方法還包括對最終數據庫中的語料進行標記的步驟,對同一含義的語料按不同語種進行標記,對同一語種的語料按不同含義進行標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技(青島)有限公司,未經中譯語通科技(青島)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711416123.3/2.html,轉載請聲明來源鉆瓜專利網。





