[發(fā)明專利]用于語言檢測的系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 201780074219.8 | 申請日: | 2017-10-02 |
| 公開(公告)號: | CN110023931A | 公開(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計)人: | 尼基希爾·博亞;P·王;S·郭 | 申請(專利權(quán))人: | MZ知識產(chǎn)權(quán)控股有限責(zé)任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京世峰知識產(chǎn)權(quán)代理有限公司 11713 | 代理人: | 卓霖;許向彤 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 組分?jǐn)?shù) 文本消息 語言 文字系統(tǒng) 檢測 計算機程序存儲 測試 語言字符 | ||
1.一種識別消息中的語言的計算機實現(xiàn)的方法,該方法包括:
獲得文本消息;
從文本消息中去除非語言字符以生成清理的文本消息;
檢測清理的文本消息中存在的字母和文字系統(tǒng)中的至少一個,其中,檢測包括以下中的至少一個:
(i)執(zhí)行基于字母的語言檢測測試以確定第一組分?jǐn)?shù),其中,第一組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括多種不同的語言之一的字母的可能性;和
(ii)執(zhí)行基于文字系統(tǒng)的語言檢測測試以確定第二組分?jǐn)?shù),其中,第二組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括所述多種不同的語言之一的文字系統(tǒng)的可能性;以及
基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一組分?jǐn)?shù)和第二組分?jǐn)?shù)的組合中的至少一個來識別清理的文本消息中的語言。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述非語言字符包括表情符號和數(shù)字字符中的至少一種。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述組合包括在所述第一組分?jǐn)?shù)和第二組分?jǐn)?shù)之間的內(nèi)插。
4.根據(jù)權(quán)利要求1所述的方法,其中,識別清理的文本消息中的語言包括:
對清理的文本消息執(zhí)行語言檢測測試以生成第三組分?jǐn)?shù),其中,第三組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括多種不同的語言之一的可能性。
5.根據(jù)權(quán)利要求4所述的方法,其中,基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一組分?jǐn)?shù)和第二組分?jǐn)?shù)的組合中的至少一個,從多個語言檢測測試中選擇語言檢測測試。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述語言檢測測試包括語言檢測方法和一個或多個分類器。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述語言檢測方法包括基于詞典的語言檢測測試、n元語法語言檢測測試、基于字母的語言檢測測試、基于文字系統(tǒng)的語言檢測測試和用戶語言簡檔語言檢測測試中的至少一個。
8.根據(jù)權(quán)利要求6所述的方法,其中,所述一個或多個分類器包括監(jiān)督學(xué)習(xí)模型、部分監(jiān)督學(xué)習(xí)模型、無監(jiān)督學(xué)習(xí)模型和內(nèi)插中的至少一個。
9.根據(jù)權(quán)利要求4所述的方法,包括:
使用一個或多個分類器處理第三組分?jǐn)?shù),以識別清理的文本消息中的語言。
10.根據(jù)權(quán)利要求9所述的方法,包括:
從所述一個或多個分類器輸出清理的文本消息是所識別語言的指示,其中,所述指示包括置信度分?jǐn)?shù)。
11.一種用于識別消息中的語言的計算機實現(xiàn)的系統(tǒng),包括:
清理器模塊,
其中,清理器模塊獲得文本消息并從文本消息中去除非語言字符,以生成清理的文本消息;
分組器模塊,
其中,分組器模塊檢測清理的文本消息中存在的字母和文字系統(tǒng)中的至少一個,并且其中,所述分組器模塊可操作成執(zhí)行包括以下中的至少一個的操作:
執(zhí)行基于字母的語言檢測測試以確定第一組分?jǐn)?shù),其中,第一組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括多種不同的語言之一的字母的可能性;和
執(zhí)行基于文字系統(tǒng)的語言檢測測試以確定第二組分?jǐn)?shù),其中,第二組分?jǐn)?shù)中的每個分?jǐn)?shù)表示清理的文本消息包括所述多種不同的語言之一的文字系統(tǒng)的可能性;以及
語言檢測器模塊,
其中,語言檢測器模塊基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一組分?jǐn)?shù)和第二組分?jǐn)?shù)的組合中的至少一個來識別清理的文本消息中的語言。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述非語言字符包括表情符號和數(shù)字字符中的至少一種。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述組合包括所述第一組分?jǐn)?shù)和第二組分?jǐn)?shù)之間的內(nèi)插。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于MZ知識產(chǎn)權(quán)控股有限責(zé)任公司,未經(jīng)MZ知識產(chǎn)權(quán)控股有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780074219.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 世界文字信息數(shù)字化運算編碼輸入方法及其信息處理系統(tǒng)
- 一種排版系統(tǒng)及其生成文字框的方法
- 一種調(diào)整終端文字的方法、裝置及終端
- 世界文字信息數(shù)字化運算編碼輸入方法及其信息處理系統(tǒng)
- 一種安卓系統(tǒng)中標(biāo)簽文本視圖的實現(xiàn)方法及系統(tǒng)
- 一種文字提取系統(tǒng)、方法、介質(zhì)和計算設(shè)備
- 字重調(diào)節(jié)方法、裝置、終端及存儲介質(zhì)
- 文字識別方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 一種基于加密標(biāo)簽算法的身份驗證系統(tǒng)及其工作方法
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)





