[發明專利]多維度待譯文檔的預處理方法有效
| 申請號: | 201310752261.4 | 申請日: | 2013-12-30 |
| 公開(公告)號: | CN103729350B | 公開(公告)日: | 2017-01-04 |
| 發明(設計)人: | 江潮;張芃 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多維 譯文 預處理 方法 | ||
1.一種多維度待譯文檔的預處理方法,其特征在于,包括:
統計所述待譯文檔包括的行業類別屬性的數量和所述待譯文檔的類符形符比;
分別判斷所述待譯文檔包括的行業類別屬性的數量相對于行業類別屬性設定閾值的大小、所述待譯文檔的類符形符比相對于類符形符比設定閾值的大小,根據所述待譯文檔的類符形符比相對于類符形符比設定閾值的大小匹配所述待譯文檔的翻譯難度系數;
根據這兩種判斷結果選擇將所述待譯文檔按所述行業類別屬性或者所述待譯文檔的翻譯難度系數拆分。
2.如權利要求1所述的多維度待譯文檔的預處理方法,其特征在于:
如果所述待譯文檔的行業類別屬性不小于行業類別屬性設定閾值,則將所述待譯文檔按照所述行業類別拆分;
如果所述待譯文檔的行業類別屬性小于行業類別屬性設定閾值,且所述待譯文檔的類符形符比不小于類符形符比設定閾值,則將所述待譯文檔按照所述待譯文檔的翻譯難度系數拆分;
如果所述待譯文檔的行業類別屬性小于行業類別屬性設定閾值,且所述待譯文檔的類符形符比小于類符形符比設定閾值,則將所述待譯文檔按照所述行業類別拆分。
3.如權利要求1或2所述的待譯文檔的預處理的方法,其特征在于,統計所述待譯文檔包括的行業類別屬性的數量的過程包括:
去除所述待譯文檔中的停用詞和沒有具體意義的詞語,得到所述待譯文檔的特征詞;
將所述待譯文檔的各個所述特征詞逐個在術語語料庫中匹配,記錄每個所述特征詞或者由多個所述特征詞構成的特征詞串匹配的術語的行業類別屬性;
統計匹配到的行業類別屬性的數量。
4.如權利要求1或2所述的待譯文檔的預處理的方法,其特征在于:統計所述待譯文檔的類符形符比的過程包括:
根據所述待譯文檔的所有詞匯,統計其中的類符數和形符數,通過所述類符數與所述形符數之比得到所述待譯文檔的類符形符比;或者,
將所述待譯文檔的所有詞匯按照文檔標準數量劃分為多個子文檔得到所述待譯文檔的類符形符比
其中,token為不足文檔標準數量詞匯的子文檔的形符數,type為不足文檔標準數量詞匯的子文檔的類符數,typei為第i個含文檔標準數量個詞匯的子文檔的類符數,n為含文檔標準數量個詞匯的子文檔數量,ST為文檔標準數量個詞匯劃分單位。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310752261.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應用于車床刀架的切刀結構及車床
- 下一篇:一種稍板平面卡具





