[發明專利]按文檔的字符屬性碎片化的方法有效
| 申請號: | 201310750311.5 | 申請日: | 2013-12-30 |
| 公開(公告)號: | CN103761226B | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 江潮 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 字符 屬性 碎片 方法 | ||
技術領域
本發明屬于自然語言處理技術領域,尤其涉及一種按文檔的字符屬性碎片化的方法。
背景技術
在這個全球化、國際化的今天,世界政治、經濟、文化的交流越來越頻繁,各國人員的往來也越來越密集,使得對翻譯的需求也越來越大;同時隨著互聯網的興起,各語種的信息量爆發性的增長,各語種信息之間的轉換需求也呈快速爆發性增長的態勢。
目前最常用的碎片化方法,是按固定字數或按自然段落進行碎片化,這種方法快速易行,不需花費很多的計算資源,即可完成,在一些對語種和分類要求不是很強烈的應用場景不失為一種很好的碎片化方法;按語種進行碎片化的方法,該方法應用于對翻譯方向要求很明確的場合,對于給定的翻譯文檔,判斷出其中每一種文字,最大化的截取并組合之;按任務標題進行碎片化的方法,是通過對任務標題進行分詞,并判斷其所屬的類別,從而對任務所屬類別進行判斷,這是一種簡單的按類別進行碎片化的方法。面對海量的多語信息轉換和翻譯任務,目前自翻譯的模式或小規模工作間式的翻譯模式已完全無法適應,采用普通的任務平均分配和流水作業的方法,不能將合適的翻譯任務分配給合適的譯員,以致效率很低而且無法利用信息化平臺進行自動化的高效處理。
發明內容
有鑒于此,本發明的目的是提出一種按文檔的字符屬性碎片化的方法,以解決如何將最合適的翻譯任務分配給最合適的譯員的問題和能夠在大規模并行分布處理的云翻譯平臺上對所輸入的多語信息標準化和可度量化的要求。
本發明公開了一種譯稿按難度等級碎片化的方法,包括:
確定分詞處理后的各個文檔的所有詞匯和所有語句的字符屬性;
根據所述字符屬性在建立的多種字符屬性與級別標識的關聯關系中進行匹配;
根據匹配后的級別標識賦予相應的所述文檔;
合并級別標識相同的文檔。
在一些可選的實施例中,所述確定分詞處理后的各個文檔的所有詞匯的字符屬性的過程包括:
確定所有詞匯的詞匯等級grade_word、類符形符比STTR和實義詞密度density_notional,得到所述詞匯的字符屬性,記為詞匯復雜度diff_word,
diff_word=K11·grade_word+K12·STTR+K13·density_notional
其中,K11、K12、K13為通過給定樣本所計算出的詞匯復雜度調節系數。
在一些可選的實施例中,確定所述詞匯等級difdiff_word的過程包括:
將所述所有詞匯與其所屬語種的詞匯分級表中進行匹配,得到所述所有詞匯的等級,分別為一級、二級和三級,未出現在這3個級別中的詞匯為四級;統計二級和二級以上的詞匯數量和所述文檔的總詞匯數;計算得到如下詞匯等級difdiff_word,
其中,word2、word3和word4分別為二級、三級和四級的詞匯數量,word為所述文檔的總詞匯數量,K111、K112、K113為通過給定樣本所計算出的詞匯等級調節系數。
在一些可選的實施例中,確定所述類符形符比的過程包括:
統計所述文檔的形符和類符,所述形符為所述文檔的總詞匯數量,所述類符為所述文檔的不相同的詞匯數量,若所述形符不足標準數量,則計算類符與形符之比,得到所述類符形符比;
若所述形符大于等于標準數量,則將所述文檔劃分為若干個含標準數量個詞匯的子文檔和1個不足標準數量的子文檔;
按照類符形符比計算公式,計算得到所述類符形符比,所述類符形符比計算公式如下:
其中,token為所述不足標準數量的的子文檔的形符數,type為所述不足標準數量子文檔的類符數,n為所述含標準數量個詞匯的子文檔的數量,typei為n子文檔中第i個子文檔的類符數,ST為所述標準數量的表示值。
在一些可選的實施例中,確定所述實義詞詞義密度的過程包括:
對所有詞匯進行詞匯標注,得到所述文檔的實義詞,所述實義詞至少包括以下詞性之一:名詞、代名詞、動詞、形容詞、副詞和感嘆詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310750311.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種金屬管的連接結構
- 下一篇:一種承插式鋼接頭連接裝置





