[發明專利]適用于機器學習的采集系統在審
| 申請號: | 201710860927.6 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107562739A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 曾傳德 | 申請(專利權)人: | 曾傳德 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 適用于 機器 學習 采集 系統 | ||
技術領域
本發明涉及計算機技術領域,具體涉及適用于機器學習的采集系統。
背景技術
機器翻譯,又稱為自動翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。同時,機器翻譯又具有重要的實用價值。隨著經濟全球化及互聯網的飛速發展,機器翻譯技術在促進政治、經濟、文化交流等方面起到越來越重要的作用。
雖然機器翻譯通過機器學習可以達到很好的翻譯水平,但是機器學習需要大量的翻譯樣本,獲取大量的翻譯樣本需要很高的人力成本,并且獲取的翻譯樣本質量參差不齊,不適合機器學習。
發明內容
本發明所要解決的技術問題是現有的機器學習需要大量的翻譯樣本,獲取大量的翻譯樣本需要很高的人力成本,并且獲取的翻譯樣本質量參差不齊,不適合機器學習,目的在于提供適用于機器學習的采集系統,解決上述問題。
本發明通過下述技術方案實現:
適用于機器學習的采集系統,包括:用于儲存翻譯原文和與翻譯原文對應的翻譯譯文的翻譯數據庫;用于選取樣本原文的樣本選取模塊;用于在翻譯數據庫中選取與樣本原文最相似的翻譯原文的對比模塊;用于公開發布樣本原文和對比模塊選取出的與樣本原文最相似的翻譯原文的公開平臺;所述公開平臺還用于公開公開征集樣本原文對應的樣本譯文和翻譯原文對應的翻譯譯文;同一應征者必須完成一份樣本譯文和翻譯譯文;所述對比模塊還用于將同一應征者完成的樣本譯文和翻譯譯文同時提取出來,并將翻譯譯文與翻譯數據庫中的翻譯譯文進行對比;如果應征者完成的翻譯譯文與翻譯數據庫中的翻譯譯文的相似度大于通過閾值,則對比模塊將該應征者完成的樣本譯文和原文樣本放入翻譯數據庫。
現有技術中,雖然機器翻譯通過機器學習可以達到很好的翻譯水平,但是機器學習需要大量的翻譯樣本,獲取大量的翻譯樣本需要很高的人力成本,并且獲取的翻譯樣本質量參差不齊,不適合機器學習。本發明應用時,樣本選取模塊選取樣本原文,對比模塊在翻譯數據庫中選取與樣本原文最相似的翻譯原文,然后利用公開平臺公布樣本原文和對比模塊選取出的與樣本原文最相似的翻譯原文;通過公開平臺上的應征者提供樣本原文對應的譯文,從而降低成本,而將同一應征者完成的樣本譯文和翻譯譯文同時提取出來,并將翻譯譯文與翻譯數據庫中的翻譯譯文進行對比;如果應征者完成的翻譯譯文與翻譯數據庫中的翻譯譯文的相似度大于通過閾值,則將該應征者完成的樣本譯文和原文樣本放入翻譯數據庫。當應征者完成的翻譯譯文與翻譯數據庫中的翻譯譯文的相似時,由于的翻譯原文與樣本原文相似,則可以認為該應征者可以有效的完成樣本原文的翻譯工作,從而保證了翻譯樣本的質量,非常適合機器學習。
進一步的,所述對比模塊對比兩個句子是否相似時,解析兩個句子的句法樹,并得出兩個句子的句法樹之間的納真值TP,誤報值FP,去真值FN;所述對比模塊通過下式得出兩個句子的相似值:上文所述TP為納真值,FP為誤報值,FN為去真值,R為召回率,P為結構準確率,F為相似值。
本發明應用時,通過這種方式來分析相似度,可以有效的分析出最相似的翻譯原文,從而提高了樣本譯文獲取的質量。
進一步的,所述翻譯數據庫還用于對翻譯原文和與翻譯譯文進行機器學習。
進一步的,所述公開平臺還用于當應征者完成的翻譯譯文與翻譯數據庫中的翻譯譯文的相似度小于通過閾值,且大于封禁閾值,再次發送樣本原文和翻譯原文給該應征者。
進一步的,所述公開平臺還用于當應征者完成的翻譯譯文與翻譯數據庫中的翻譯譯文的相似度小于封禁閾值,將該應征者封禁。
本發明應用時,將相似度小于封禁閾值的應征者可以視為不具備樣本原文翻譯的能力,從而將其封禁,提高了樣本譯文獲取的質量。
本發明與現有技術相比,具有如下的優點和有益效果:
本發明適用于機器學習的采集系統,由于的翻譯原文與樣本原文相似,則可以認為該應征者可以有效的完成樣本原文的翻譯工作,從而保證了翻譯樣本的質量,非常適合機器學習。
附圖說明
此處所說明的附圖用來提供對本發明實施例的進一步理解,構成本申請的一部分,并不構成對本發明實施例的限定。在附圖中:
圖1為本發明系統結構示意圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,下面結合實施例和附圖,對本發明作進一步的詳細說明,本發明的示意性實施方式及其說明僅用于解釋本發明,并不作為對本發明的限定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曾傳德,未經曾傳德許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710860927.6/2.html,轉載請聲明來源鉆瓜專利網。





