[發明專利]一種基于譯稿分類為待譯稿件匹配譯員的方法在審
| 申請號: | 201611218858.0 | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN106844304A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 宋安琪 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27;G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 譯稿 分類 匹配 譯員 方法 | ||
技術領域
本發明屬于自然語言處理、信息檢索,尤其涉及一種基于譯稿分類為待譯稿件匹配譯員的方法。
背景技術
在大體量的翻譯公司或者翻譯平臺上,不得不面對的一個問題是如何為待譯稿件匹配譯員,常見的做法是人工判別和機器判別,人工判別是通過語言專家或翻譯專家分別對翻譯文檔和譯員進行分析和判斷,由于人的閱讀和理解限制,這種方法速度較慢同時要耗費非常大的的人力成本,并且由于判別人能力的參差以及每人對文檔難度的理解不同而產生很大的判別差別,判別結果無法做到統一標準,客觀性很差。機器判別的方法包括一種方法:根據譯稿匹配譯員,實際是通過譯稿匹配譯稿庫中已有譯稿,進而確定譯員。
文檔相似度匹配可以通過搜索引擎實現,Lucene是一套用于全文檢索和搜索的開源程序庫,為互聯網時代搜索引擎是常見的信息檢索工具。
通常一個文檔集合里會有很多文檔包含某個單詞,每個文檔會記錄文檔編號,單詞在這個文檔中出現的次數(TF)及單詞在文檔中哪些位置出現過等信息,這樣與一個文檔相關的信息叫做倒排索引項,包含這個單詞的一系列倒排索引項構成了這個單詞對應的倒排索引表,成萬上億個單詞的倒排索引表構成了倒排索引。
目前,對利用文檔處理及匹配提高匹配譯員的效率尚有許多提高空間。
發明內容
本發明所要解決的技術問題是通過對已有譯稿和待譯稿進行預處理,基于譯稿分類對預處理后的已有譯稿和待譯稿進行相似度匹配,從而高效準確地匹配到合適的譯員。
為解決上述技術問題,本發明提供了一種基于譯稿分類為待譯稿件匹配譯員的方法,其特征是包括以下步驟:
(1)建立停用詞表
所述建立停用詞表的步驟是通過譯稿庫計算得到高頻通用詞,通過高頻通用詞和常見停用詞建立停用詞表;
(2)對已有譯稿進行預處理,所述已有譯稿記錄著完稿譯員的信息;
(3)對待譯稿進行預處理,所述預處理包括分詞;
(4)將預處理后的已有譯稿與預處理后的待譯稿進行文檔相似度匹配,獲得候選譯稿;
(5)篩選譯稿,所述篩選譯稿的步驟是:
收集若干類別的文檔作為訓練樣本,對譯稿分類器進行訓練,對譯稿庫已有譯稿進行分類;
將候選譯稿關聯分類,如果候選譯稿包含不同分類,保留數量比例超過設定閾值的分類的譯稿;
(6)獲取候選譯稿記錄的譯員信息,保存為待譯稿件匹配譯員的信息。
進一步,所述建立停用詞表的步驟中的譯稿庫中的已有譯稿,是已經通過譯稿分類器分類后的譯稿。
進一步,所述對待譯稿進行預處理的步驟是: (1)對待譯稿進行分詞,(2)提取待譯稿主題, (3)對待譯稿分詞后的待譯稿內容和待譯稿主題進行加權,獲得預處理后的待譯稿。
進一步,所述對已有譯稿進行預處理的步驟是:(1)對已有譯稿分詞并建立基于詞匯的倒排索引;(2)對分詞后的已有譯稿提取主題,建立基于譯稿主題的倒排索引;(3)對基于詞匯的倒排索引和基于譯稿主題的倒排索引進行加權,獲得預處理后的已有譯稿。
進一步,所述對已有譯稿分詞后提取主題的方法是:(1)如果有標題,將標題默認為主題;(2)如果沒有標題,但有關鍵詞,根據關鍵詞提取譯稿主題;(3)如果沒有標題,也沒有關鍵詞,默認首句為主題句。
進一步,所述對待譯稿進行分詞是通過調用Lucene搜索引擎進行分詞,所述Lucene搜索引擎包括若干種分詞器。
進一步,所述Lucene搜索引擎根據語種類別采用相匹配的分詞器對譯稿庫中已有譯稿進行分詞。
進一步,所述Lucene搜索引擎根據語種類別采用相匹配的分詞器,所述語種類別包括拉丁語系和東亞語系,所述拉丁語系采用具有詞干提取功能的分詞器,所述東亞語系采用基于詞典和統計的分詞器。
進一步,所述將預處理后的已有譯稿與待譯稿件進行文檔相似度匹配的步驟是根據公式(一)計算文檔相似度,所述公式(一)為:
其中,Q表示待譯稿件,d表示已有譯稿,qi表示預處理后的待譯稿件詞語,N表示譯稿庫中的總文檔數;
k1, b為調節因子,設置k1=1.2,b=0.75,fi為qi在d中的出現次數,n(qi)為譯稿庫中包含qi的文檔數,dl為已有譯稿d的長度,avgdl為譯稿庫中所有文檔的平均長度;
所述公式一的計算因子N,qi,n(qi),dl,avgdl,fi由以下步驟得出;
(a)記錄譯稿庫中的總文檔數N,總文檔長度adl,根據公式計算得出平均文檔長度avgdl;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611218858.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:套管式截骨段骨干假體
- 下一篇:電吹風(二)





