[發明專利]一種譯文檢查方法及其系統有效
| 申請號: | 201310456548.2 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN104516870B | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 葉茂;王元龍;金立峰;湯幟;徐劍波 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 譯文 檢查 方法 及其 系統 | ||
1.一種譯文檢查方法,包括初始化處理和檢查評定處理,其特征在于:
所述初始化處理,基于一批語料,通過統計所述語料二元切分條目的概率信息,來獲得二元語法模型,作為檢查評分模型,為所述檢查判定處理時給譯文打分提供依據;具體包括:獲取文本集D,d∈D,其中d表示所述文本集D的一個文本;將所述文本集D中的每一個文本d分句后獲得的句子進行二元切分,并將每個二元切分條目(wiwi+1)存入列表L,其中,i=1,2,…,n-1,n為一個句子所包含的字符個數,wi表示句子中的一個字符,wi+1表示字符wi后的一個字符;對所述文本集D中的每一個文本d進行分句處理,得到m個句子s1,s2,…,sm,其中m為非負整數;對所述每一個句子si做二元切分,通過si得到k個二元切分條目(w1w2)(w2w3)…(wkwk+1),每一個句子si包含的字符的個數為k+1個;將每個二元切分條目存入列表L;將所述列表L中的每個二元切分條目存入集合Q,根據所述集合Q計算以wi開始時wj出現的概率fp(wi,wj),其中wi、wj分別表示二元切分條目中的第一字符和第二字符;將計算得到的所有fp(wi,wj)保存為所述檢查評分模型;其中,所述計算以wi開始時wj出現的概率fp(wi,wj)的方法為:從列表L中得到所有以wi開始的二元切分條目,將二元切分條目中的第二個字符wj加入字符串S;將所述字符串S中的每個字符存入集合T;統計所述字符串S的長度n1,對于集合T中的每一個字符wj,統計所述字符wj在字符串S中出現的次數m1;則以wi開始時wj出現的概率fp(wi,wj)為fp(wi,wj)=m1/n1
其中,m1,n1的初始值為零;
所述檢查評定處理,通過所述檢查評分模型給譯文打分,獲取短語的譯文;對所述譯文做二元切分,獲得所述譯文的二元切分條目;根據所述檢查評分模型對所述譯文進行打分評估;將譯文得分與預設判定閾值比較,將得分小于所述預設判定閾值的譯文判定為“錯誤”,否則判定為“正確”。
2.根據權利要求1所述的譯文檢查方法,其特征在于:所述對所述譯文做二元切分的方法與所述初始化處理的方法相同。
3.根據權利要求2所述的譯文檢查方法,其特征在于:所述二元切分采用CJK分詞器進行二元切分。
4.根據權利要求3所述的譯文檢查方法,其特征在于,所述對所述譯文進行打分評估的方法為:
Score譯=Min{Scorei,i=1,2,…,n-1}
其中,Scorei是一條二元切分條目的評分,Scorei=fp(wi,wj),fp(wi,wj)為譯文中的二元切分條目(wiwj)在模型中對應的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學,未經北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310456548.2/1.html,轉載請聲明來源鉆瓜專利網。





