[發(fā)明專利]多語文檔分離的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201010285962.8 | 申請日: | 2010-09-19 |
| 公開(公告)號: | CN101996164A | 公開(公告)日: | 2011-03-30 |
| 發(fā)明(設計)人: | 趙國偉 | 申請(專利權)人: | 傳神聯(lián)合(北京)信息技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100086 北京市海淀區(qū)青云里滿庭*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語文 分離 方法 系統(tǒng) | ||
技術領域
本發(fā)明涉及數(shù)據(jù)處理領域,尤其涉及一種多語文檔分離技術。
背景技術
在日常文檔處理過程中,通常會遇到一個文檔中同時存在多語種內容,如在一個文檔中同時存在中文、英文和日文。如果需要將這種多語種文檔中的不同語種分開,目前都是通過人工一點點進行操作,非常浪費人力資源和時間。
發(fā)明內容
本發(fā)明的目的是提供一種多語文檔分離的方法和系統(tǒng),該發(fā)明不僅可以將多語種文檔中的不同語種語言按照語種類別分離開,而且操作簡單,大大節(jié)省了人力資源和時間。
本發(fā)明的目的是通過以下技術方案實現(xiàn)的:
本發(fā)明提供一種多語文檔分離的方法,其包括:
對文檔字符進行掃描;
根據(jù)字符屬性信息為當前掃描字符確定語種標識;
將當前掃描字符的語種標識與需分離語種標識進行比較,并當二者相同時,記錄當前掃描字符為句首字符;將掃描到的下一個字符與句尾符號進行比較,并當二者相同時,記錄其為句尾字符;將自句首字符至句尾字符的所有字符定位為當前句,并為當前句分配存放指針;
根據(jù)所述存放指針,將當前句寫入到與該語種標識對應的文件中。
其中,更優(yōu)選的,所述根據(jù)字符屬性信息為當前掃描字符確定語種標識的過程包括:
提取當前掃描字符的字符屬性信息;
根據(jù)預設的字符屬性信息與語種標識之間的映射關系,為當前掃描字符分配相應的語種標識。
其中,更優(yōu)選的,所述多語文檔分離的方法還包括:
判斷文檔中的字符是否全部被掃描,若是,則結束掃描過程;否則,繼續(xù)掃描。
其中,更優(yōu)選的,在根據(jù)字符屬性信息為當前掃描字符確定語種標識的過程之前,還包括:
獲取用戶選擇的需分離語種標識;
獲取用戶選擇的文檔的鏈接地址;
獲取用戶的開始指令,并根據(jù)所述文檔的鏈接地址打開對應的文檔。
其中,更優(yōu)選的,所述多語文檔分離的方法還包括:
根據(jù)授權的用戶身份標識庫,對登錄用戶的身份進行驗證。
本發(fā)明還提供一種多語文檔分離的系統(tǒng),其包括:
掃描單元,用于對文檔字符進行掃描;
語種確定單元,用于根據(jù)字符屬性信息為當前掃描字符確定語種標識;
語句定位單元,用于將所述語種確定單元所確定的語種標識與需分離語種標識進行比較,并當二者相同時,記錄當前掃描字符為句首字符;將掃描到的下一個字符與句尾符號進行比較,并當二者相同時,記錄其為句尾字符,將自句首字符至句尾字符的所有字符定位為當前句,并為當前句分配存放指針;
語種分離單元,用于根據(jù)所述語句定位單元確定的存放指針,將當前句寫入到與該語種標識對應的文件中。
其中,更優(yōu)選的,所述多語文檔分離的系統(tǒng)還包括:
文檔掃描控制單元,用于判斷文檔中的字符是否全部被掃描,若是,則通知所述掃描單元結束掃描;否則,不操作。
其中,更優(yōu)選的,所述多語文檔分離的系統(tǒng)還包括:
信息獲取單元,用于獲取用戶選擇的需分離語種標識,以及獲取用戶選擇的文檔的鏈接地址;
指令獲取單元,用于獲取用戶的開始指令,并根據(jù)所述文檔的鏈接地址打開對應的文檔。
其中,更優(yōu)選的,所述多語文檔分離的系統(tǒng)還包括:
人機交互界面,所述交互界面設置有:
用戶添加按鈕,用于添加用戶所選擇的需分離語種標識,以及添加用戶所選擇的文檔的鏈接地址;
指令操作按鈕,用于用戶發(fā)送指令。
其中,更優(yōu)選的,所述多語文檔分離的系統(tǒng)還包括:
登錄單元,用于獲取用戶的登錄信息,并根據(jù)所述登錄信息發(fā)送身份驗證請求給服務器,并當服務器通過驗證后,允許所述用戶登錄所述人機交互界面。
由上述本發(fā)明提供的技術方案可以看出,本發(fā)明通過提取與需分離語種標識相同的字符所在的語句,能夠實現(xiàn)對WORD文檔中的多語混雜內容進行分離,不僅方便了用戶操作,而且能夠大大節(jié)約人力資源和時間。
附圖說明
圖1為本發(fā)明第一實施例中提供的多語文檔分離的方法的流程圖;
圖2為本發(fā)明第二實施例中提供的多語文檔分離的系統(tǒng)的結構原理圖。
具體實施方式
下面結合附圖對本發(fā)明實施例進行詳細描述。
本發(fā)明第一實施例提供了一種多語文檔分離的方法,在實施該方法之前,需要在服務器數(shù)據(jù)庫中保存被授權用戶身份標識信息,在客戶端設置字符屬性信息與語種標識之間的映射關系。以及,完成如下系統(tǒng)登錄和獲取用戶添加的需分離語種標識和需分離文檔的鏈接地址的過程:
一、系統(tǒng)登錄
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于傳神聯(lián)合(北京)信息技術有限公司,未經(jīng)傳神聯(lián)合(北京)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010285962.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種上行控制信令的傳輸方法及終端、基站
- 下一篇:水煤漿的制備方法





