[發明專利]用于機器翻譯的完整句識別方法與系統有效
| 申請號: | 201811225110.2 | 申請日: | 2018-10-22 |
| 公開(公告)號: | CN109325237B | 公開(公告)日: | 2023-06-13 |
| 發明(設計)人: | 何恩培;鄭麗華;王蓮 | 申請(專利權)人: | 傳神語聯網網絡科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/211;G06F40/58 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 機器翻譯 完整 識別 方法 系統 | ||
1.一種計算機實現輔助機器翻譯的方法,其特征在于,預先建立一個停頓符號集合,所述方法包括如下步驟:
S1:讀取當前待處理文本的當前未處理段落;
S2:從當前未處理段落的第一個未讀字符開始連續讀取字符;
S3:判斷當前讀取的字符是否為停頓符;
如果當前讀取的字符為停頓符,判斷讀取的字符數是否小于第二設定值,
如果讀取的字符數小于第二設定值,則返回步驟S2;
如果讀取的字符數不小于第二設定值,則進入步驟S4;
如果當前讀取的字符不為停頓符,重復步驟S2;
S4:基于讀取的字符形成的當前待處理句,提取多個句子主干詞;
判斷提取的句子主干詞的數量,如果數量少于第一設定值,則返回步驟S2;
S5:將所述多個句子主干詞輸入基于云端語料庫的機器學習引擎,輸出至少一個比較句;
S6:基于所述至少一個比較句與當前待處理句的比較,識別當前待處理句是否構成完整句;如果是,則將當前待處理句上傳至機器翻譯引擎中;
S7:判斷當前停頓符是否為全文結尾標記符,如果是,則結束處理;否則,進入步驟S8;
S8:判斷當前停頓符是否為段落結尾標記符,如果是,則進入步驟S1;否則,進入S2。
2.一種用于機器翻譯的完整句識別系統,用于實現權利要求1所述的方法,該系統包括:
(1)預處理系統:該預處理系統將待譯文本進行預處理,輸出段落子部分集合;
(2)段落子部分處理系統:所述段落子部分處理系統以段落為單位,對所述段落子部分集合進行處理,輸出完整句;
(3)完整句上傳系統:將段落子部分處理系統輸出的完整句上傳至機器翻譯引擎;
其特征在于:
預先建立一個停頓符號集合,用于后續的查詢判斷;
所述段落子部分處理系統,包括待譯文本讀取系統、待譯關鍵詞提取系統、云端語料庫組句系統以及判斷識別系統;
所述待譯文本讀取系統,從當前段落的第一個未讀字符開始連續讀取剩余字符,直到讀取到停頓符號為止;讀取的連續字符構成候選句;
所述待譯關鍵詞提取系統,基于實詞或者虛詞的切分技術,從所述候選句中提取多個句子主干詞;將所述多個句子主干詞輸入至所述云端語料庫組句系統;
所述云端語料庫組句系統,基于云端語料庫輸出至少一個匹配句;
所述判斷識別系統將當前候選句和匹配句進行比較,基于比較條件是否滿足預定條件,輸出判別結果;
所述比較條件是否滿足預定條件包括:比較當前候選句和生成的匹配句的長度,判斷長度差是否在第一閾值范圍內;將當前候選句和生成的匹配句進行相似度比較,判斷相似度是否在第二閾值范圍之內;
如果長度差不滿足第一閾值范圍條件,和/或,相似度不滿足第二閾值范圍條件,則當前候選句不是一個完整句子,則繼續連續讀取當前停頓符號之后的未讀字符,直到讀取到下一個停頓符號為止;讀取的連續字符加入到當前候選句中。
3.如權利要求2所述的用于機器翻譯的完整句識別系統,其特征在于,
所述的段落子部分處理系統還包括:候選句長度判斷模塊,用于在所述待譯文本讀取系統輸出候選句之后,判斷當前候選句的長度。
4.如權利要求2所述的用于機器翻譯的完整句識別系統,其特征在于,
所述的段落子部分處理系統還包括:待譯關鍵詞判斷步驟,用于在所述待譯關鍵詞提取系統提取出待譯關鍵詞之后,判斷待譯關鍵詞的數量是否滿足第二設定值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于傳神語聯網網絡科技股份有限公司,未經傳神語聯網網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811225110.2/1.html,轉載請聲明來源鉆瓜專利網。





