[發(fā)明專利]用于語言檢測的系統(tǒng)和方法在審

申請?zhí)枺?/td>	201780074219.8	申請日：	2017-10-02
公開（公告）號：	CN110023931A	公開（公告）日：	2019-07-16
發(fā)明（設(shè)計）人：	尼基希爾·博亞;P·王;S·郭	申請（專利權(quán)）人：	MZ知識產(chǎn)權(quán)控股有限責(zé)任公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	北京世峰知識產(chǎn)權(quán)代理有限公司 11713	代理人：	卓霖;許向彤
地址：	美國加利***	國省代碼：	美國;US
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	組分?jǐn)?shù) 文本消息語言文字系統(tǒng) 檢測計算機程序存儲測試語言字符
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種識別消息中的語言的計算機實現(xiàn)的方法，該方法包括：

獲得文本消息；

從文本消息中去除非語言字符以生成清理的文本消息；

檢測清理的文本消息中存在的字母和文字系統(tǒng)中的至少一個，其中，檢測包括以下中的至少一個：

(i)執(zhí)行基于字母的語言檢測測試以確定第一組分?jǐn)?shù)，其中，第一組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括多種不同的語言之一的字母的可能性；和

(ii)執(zhí)行基于文字系統(tǒng)的語言檢測測試以確定第二組分?jǐn)?shù)，其中，第二組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括所述多種不同的語言之一的文字系統(tǒng)的可能性；以及

基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一組分?jǐn)?shù)和第二組分?jǐn)?shù)的組合中的至少一個來識別清理的文本消息中的語言。

2.根據(jù)權(quán)利要求1所述的方法，其中，所述非語言字符包括表情符號和數(shù)字字符中的至少一種。

3.根據(jù)權(quán)利要求1所述的方法，其中，所述組合包括在所述第一組分?jǐn)?shù)和第二組分?jǐn)?shù)之間的內(nèi)插。

4.根據(jù)權(quán)利要求1所述的方法，其中，識別清理的文本消息中的語言包括：

對清理的文本消息執(zhí)行語言檢測測試以生成第三組分?jǐn)?shù)，其中，第三組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括多種不同的語言之一的可能性。

5.根據(jù)權(quán)利要求4所述的方法，其中，基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一組分?jǐn)?shù)和第二組分?jǐn)?shù)的組合中的至少一個，從多個語言檢測測試中選擇語言檢測測試。

6.根據(jù)權(quán)利要求4所述的方法，其中，所述語言檢測測試包括語言檢測方法和一個或多個分類器。

7.根據(jù)權(quán)利要求6所述的方法，其中，所述語言檢測方法包括基于詞典的語言檢測測試、n元語法語言檢測測試、基于字母的語言檢測測試、基于文字系統(tǒng)的語言檢測測試和用戶語言簡檔語言檢測測試中的至少一個。

8.根據(jù)權(quán)利要求6所述的方法，其中，所述一個或多個分類器包括監(jiān)督學(xué)習(xí)模型、部分監(jiān)督學(xué)習(xí)模型、無監(jiān)督學(xué)習(xí)模型和內(nèi)插中的至少一個。

9.根據(jù)權(quán)利要求4所述的方法，包括：

使用一個或多個分類器處理第三組分?jǐn)?shù)，以識別清理的文本消息中的語言。

10.根據(jù)權(quán)利要求9所述的方法，包括：

從所述一個或多個分類器輸出清理的文本消息是所識別語言的指示，其中，所述指示包括置信度分?jǐn)?shù)。

11.一種用于識別消息中的語言的計算機實現(xiàn)的系統(tǒng)，包括：

清理器模塊，

其中，清理器模塊獲得文本消息并從文本消息中去除非語言字符，以生成清理的文本消息；

分組器模塊，

其中，分組器模塊檢測清理的文本消息中存在的字母和文字系統(tǒng)中的至少一個，并且其中，所述分組器模塊可操作成執(zhí)行包括以下中的至少一個的操作：

執(zhí)行基于字母的語言檢測測試以確定第一組分?jǐn)?shù)，其中，第一組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括多種不同的語言之一的字母的可能性；和

執(zhí)行基于文字系統(tǒng)的語言檢測測試以確定第二組分?jǐn)?shù)，其中，第二組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括所述多種不同的語言之一的文字系統(tǒng)的可能性；以及

語言檢測器模塊，

其中，語言檢測器模塊基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一組分?jǐn)?shù)和第二組分?jǐn)?shù)的組合中的至少一個來識別清理的文本消息中的語言。

12.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中，所述非語言字符包括表情符號和數(shù)字字符中的至少一種。

13.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中，所述組合包括所述第一組分?jǐn)?shù)和第二組分?jǐn)?shù)之間的內(nèi)插。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于MZ知識產(chǎn)權(quán)控股有限責(zé)任公司，未經(jīng)MZ知識產(chǎn)權(quán)控股有限責(zé)任公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201780074219.8/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】