[發明專利]用于語言檢測的系統和方法有效
| 申請號: | 201480084163.0 | 申請日: | 2014-10-17 |
| 公開(公告)號: | CN107111607B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 尼基希爾·博亞;P·王;F·林德;B·普索恩 | 申請(專利權)人: | MZ知識產權控股有限責任公司 |
| 主分類號: | G06F40/263 | 分類號: | G06F40/263 |
| 代理公司: | 北京世峰知識產權代理有限公司 11713 | 代理人: | 卓霖;張春媛 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 語言 檢測 系統 方法 | ||
1.一種用于識別消息中的語言的計算機實現的方法,所述方法包括:
對與用戶相關聯的消息執行多個不同的語言檢測測試,每個語言檢測測試確定相應的分數集合,所述分數集合中的每個分數表示所述消息是多種不同語言中的一種的可能性,其中,根據所述消息的長度從所述多個不同的語言檢測測試中選擇至少一個語言檢測測試;
將所述分數集合的一個或多個組合作為輸入提供給一個或多個不同的分類器;
獲得作為所述一個或多個分類器中的每一個的輸出的相應指示,所述相應指示表明所述消息是所述多種不同語言中的一種,所述指示包括置信度分數;以及
基于所述置信度分數和識別的語言領域中的至少一個,將所述消息中的所述語言識別為所述一個或多個分類器中的一個分類器所指示的語言。
2.根據權利要求1所述的方法,其中,特定分類器是監督學習模型、部分監督學習模型、無監督學習模型或插值。
3.根據權利要求1所述的方法,其中,識別所述消息中的所述語言包括基于所述置信度分數來選擇所指示的語言。
4.根據權利要求1所述的方法,其中,識別所述消息中的所述語言包括基于所識別的語言領域選擇所述分類器。
5.根據權利要求1所述的方法,其中,所述語言領域從由視頻游戲、體育、新聞、議會議事、政治、健康和旅行組成的組中選擇。
6.根據權利要求1所述的方法,其中,所述消息包括以下中的兩個或多個:字母、數字、符號和表情符號。
7.根據權利要求1所述的方法,其中,所述多個不同的語言檢測測試包括從由以下方法組成的組中選擇的至少兩種方法:字節n-gram方法、基于詞典的方法、基于字母表的方法、基于腳本的方法和用戶語言配置文件方法。
8.根據權利要求1所述的方法,其中,同時執行所述多個不同的語言檢測測試。
9.根據權利要求1所述的方法,其中,所述一個或多個組合包括來自字節n-gram方法和基于詞典的方法的分數集合。
10.根據權利要求8所述的方法,其中,所述一個或多個組合還包括來自用戶語言配置文件方法和基于字母表的方法中的至少一個的分數集合。
11.一種用于識別消息中的語言的系統,所述系統包括:
具有存儲在其上的指令的計算機存儲設備;和
被配置為執行所述指令以執行操作的數據處理裝置,所述操作包括:
對與用戶相關聯的消息執行多個不同的語言檢測測試,每個語言檢測測試確定相應的分數集合,所述分數集合中的每個分數表示所述消息是多種不同語言中的一種的可能性,其中,根據所述消息的長度從所述多個不同的語言檢測測試中選擇至少一個語言檢測測試;
將所述分數集合的一個或多個組合作為輸入提供給一個或多個不同的分類器;
獲得作為所述一個或多個分類器中的每一個的輸出的相應指示,所述相應指示表明所述消息是所述多種不同語言中的一種,所述指示包括置信度分數;以及
基于所述置信度分數和識別的語言領域中的至少一個,將所述消息中的所述語言識別為所述一個或多個分類器中的一個分類器所指示的語言。
12.根據權利要求11所述的系統,其中,特定分類器是監督學習模型、部分監督學習模型、無監督學習模型或插值。
13.根據權利要求11所述的系統,其中,識別所述消息中的所述語言包括基于所述置信度分數來選擇所指示的語言。
14.根據權利要求11所述的系統,其中,識別所述消息中的所述語言包括基于所識別的語言領域選擇所述分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于MZ知識產權控股有限責任公司,未經MZ知識產權控股有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480084163.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種交通信號燈的控制方法和系統
- 下一篇:城市交通智能控制系統





