[發明專利]用于機器翻譯的完整句識別方法與系統有效

申請號：	201811225110.2	申請日：	2018-10-22
公開（公告）號：	CN109325237B	公開（公告）日：	2023-06-13
發明（設計）人：	何恩培;鄭麗華;王蓮	申請（專利權）人：	傳神語聯網網絡科技股份有限公司
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/30;G06F40/211;G06F40/58
代理公司：	暫無信息	代理人：	暫無信息
地址：	430073 湖北省武漢市東湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于機器翻譯完整識別方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種計算機實現輔助機器翻譯的方法，其特征在于，預先建立一個停頓符號集合，所述方法包括如下步驟：

S1：讀取當前待處理文本的當前未處理段落；

S2:從當前未處理段落的第一個未讀字符開始連續讀取字符；

S3：判斷當前讀取的字符是否為停頓符；

如果當前讀取的字符為停頓符，判斷讀取的字符數是否小于第二設定值，

如果讀取的字符數小于第二設定值，則返回步驟S2；

如果讀取的字符數不小于第二設定值，則進入步驟S4；

如果當前讀取的字符不為停頓符，重復步驟S2；

S4：基于讀取的字符形成的當前待處理句，提取多個句子主干詞；

判斷提取的句子主干詞的數量，如果數量少于第一設定值，則返回步驟S2；

S5：將所述多個句子主干詞輸入基于云端語料庫的機器學習引擎，輸出至少一個比較句；

S6：基于所述至少一個比較句與當前待處理句的比較，識別當前待處理句是否構成完整句；如果是，則將當前待處理句上傳至機器翻譯引擎中；

S7：判斷當前停頓符是否為全文結尾標記符，如果是，則結束處理；否則，進入步驟S8；

S8:判斷當前停頓符是否為段落結尾標記符，如果是，則進入步驟S1；否則，進入S2。

2.一種用于機器翻譯的完整句識別系統，用于實現權利要求1所述的方法，該系統包括：

(1)預處理系統：該預處理系統將待譯文本進行預處理，輸出段落子部分集合；

(2)段落子部分處理系統：所述段落子部分處理系統以段落為單位，對所述段落子部分集合進行處理，輸出完整句；

(3)完整句上傳系統：將段落子部分處理系統輸出的完整句上傳至機器翻譯引擎；

其特征在于：

預先建立一個停頓符號集合，用于后續的查詢判斷；

所述段落子部分處理系統，包括待譯文本讀取系統、待譯關鍵詞提取系統、云端語料庫組句系統以及判斷識別系統；

所述待譯文本讀取系統，從當前段落的第一個未讀字符開始連續讀取剩余字符，直到讀取到停頓符號為止；讀取的連續字符構成候選句；

所述待譯關鍵詞提取系統，基于實詞或者虛詞的切分技術，從所述候選句中提取多個句子主干詞；將所述多個句子主干詞輸入至所述云端語料庫組句系統；

所述云端語料庫組句系統，基于云端語料庫輸出至少一個匹配句；

所述判斷識別系統將當前候選句和匹配句進行比較，基于比較條件是否滿足預定條件，輸出判別結果；

所述比較條件是否滿足預定條件包括：比較當前候選句和生成的匹配句的長度，判斷長度差是否在第一閾值范圍內；將當前候選句和生成的匹配句進行相似度比較，判斷相似度是否在第二閾值范圍之內；

如果長度差不滿足第一閾值范圍條件，和/或，相似度不滿足第二閾值范圍條件，則當前候選句不是一個完整句子，則繼續連續讀取當前停頓符號之后的未讀字符，直到讀取到下一個停頓符號為止；讀取的連續字符加入到當前候選句中。

3.如權利要求2所述的用于機器翻譯的完整句識別系統，其特征在于，

所述的段落子部分處理系統還包括：候選句長度判斷模塊，用于在所述待譯文本讀取系統輸出候選句之后，判斷當前候選句的長度。

4.如權利要求2所述的用于機器翻譯的完整句識別系統，其特征在于，

所述的段落子部分處理系統還包括：待譯關鍵詞判斷步驟，用于在所述待譯關鍵詞提取系統提取出待譯關鍵詞之后，判斷待譯關鍵詞的數量是否滿足第二設定值。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于傳神語聯網網絡科技股份有限公司，未經傳神語聯網網絡科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811225110.2/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：服務機器人聽覺感知家庭成員飲食信息的方法
下一篇：一種長文本中多實體情感分析的方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】