[發(fā)明專利]用于語(yǔ)言檢測(cè)的系統(tǒng)和方法在審
| 申請(qǐng)?zhí)枺?/td> | 201780074219.8 | 申請(qǐng)日: | 2017-10-02 |
| 公開(公告)號(hào): | CN110023931A | 公開(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 尼基希爾·博亞;P·王;S·郭 | 申請(qǐng)(專利權(quán))人: | MZ知識(shí)產(chǎn)權(quán)控股有限責(zé)任公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京世峰知識(shí)產(chǎn)權(quán)代理有限公司 11713 | 代理人: | 卓霖;許向彤 |
| 地址: | 美國(guó)加利*** | 國(guó)省代碼: | 美國(guó);US |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 組分?jǐn)?shù) 文本消息 語(yǔ)言 文字系統(tǒng) 檢測(cè) 計(jì)算機(jī)程序存儲(chǔ) 測(cè)試 語(yǔ)言字符 | ||
本公開的實(shí)施方式涉及用于識(shí)別消息中的語(yǔ)言的方法、系統(tǒng)和計(jì)算機(jī)程序存儲(chǔ)設(shè)備。從文本消息中去除非語(yǔ)言字符以生成清理的文本消息。通過(guò)執(zhí)行下述中的至少一個(gè)來(lái)檢測(cè)清理的文本消息中的字母和/或文字系統(tǒng):(i)基于字母的語(yǔ)言檢測(cè)測(cè)試以確定第一組分?jǐn)?shù)和(ii)基于文字系統(tǒng)的語(yǔ)言檢測(cè)測(cè)試以確定第二組分?jǐn)?shù)。第一組分?jǐn)?shù)中的每個(gè)分?jǐn)?shù)表示清理的文本消息包括多種不同的語(yǔ)言之一的字母的可能性。第二組分?jǐn)?shù)中的每個(gè)分?jǐn)?shù)表示清理的文本消息包括多種不同的語(yǔ)言之一的文字系統(tǒng)的可能性。基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一和第二組分?jǐn)?shù)的組合中的至少一個(gè)來(lái)識(shí)別清理的文本消息中的語(yǔ)言。
相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求2016年10月3日提交的美國(guó)專利申請(qǐng)No.15/283,646的優(yōu)先權(quán)和權(quán)益,并且通過(guò)引用將其全部?jī)?nèi)容并入本文。
技術(shù)領(lǐng)域
本公開涉及語(yǔ)言檢測(cè),尤其涉及用于檢測(cè)短文本消息中的語(yǔ)言的系統(tǒng)和方法。
背景技術(shù)
通常,語(yǔ)言檢測(cè)或識(shí)別是基于文本的內(nèi)容自動(dòng)檢測(cè)文本主體中存在的語(yǔ)言的過(guò)程。語(yǔ)言檢測(cè)在自動(dòng)語(yǔ)言翻譯的環(huán)境中是有用的,其中在將消息準(zhǔn)確地翻譯成不同語(yǔ)言之前,通常必須知道文本消息的語(yǔ)言。
雖然傳統(tǒng)語(yǔ)言檢測(cè)通常在許多單詞和句子的集合上(即,在文檔級(jí)別上)執(zhí)行,但是特別具有挑戰(zhàn)性的領(lǐng)域是聊天文本領(lǐng)域,其中消息通常僅包括幾個(gè)單詞(例如,四個(gè)或更少),其部分或全部可能是非正式的和/或拼寫錯(cuò)誤的。在聊天文本領(lǐng)域,由于缺乏信息和此類消息中存在的非正式性,現(xiàn)有的語(yǔ)言檢測(cè)方法已被證明是不準(zhǔn)確和/或緩慢的。
發(fā)明內(nèi)容
本文描述的系統(tǒng)和方法的實(shí)施例用于基于例如消息的內(nèi)容、關(guān)于用于生成消息的鍵盤的信息和/或關(guān)于生成消息的用戶的語(yǔ)言偏好的信息來(lái)檢測(cè)文本消息中的語(yǔ)言。與先前的語(yǔ)言檢測(cè)技術(shù)相比,本文描述的系統(tǒng)和方法通常更快且更準(zhǔn)確,特別是對(duì)于短文本消息(例如,四個(gè)單詞或更少)。
在各種示例中,系統(tǒng)和方法使用多個(gè)語(yǔ)言檢測(cè)測(cè)試和分類器來(lái)確定與文本消息中的可能語(yǔ)言相關(guān)聯(lián)的概率。每種語(yǔ)言檢測(cè)測(cè)試可以輸出與可能的語(yǔ)言相關(guān)聯(lián)的概率集合或向量。分類器可以組合來(lái)自語(yǔ)言檢測(cè)測(cè)試的輸出,以確定消息的最可能語(yǔ)言。為消息選擇的特定語(yǔ)言檢測(cè)測(cè)試和分類器可以取決于消息的預(yù)測(cè)準(zhǔn)確性、置信度分?jǐn)?shù)和/或語(yǔ)言學(xué)域。
本文描述的系統(tǒng)和方法的某些示例執(zhí)行對(duì)文本消息中的語(yǔ)言的初始分類,使得可以執(zhí)行更專注的語(yǔ)言檢測(cè)技術(shù)以最終確定語(yǔ)言。例如,系統(tǒng)和方法可以對(duì)文本消息執(zhí)行初始語(yǔ)言檢測(cè)測(cè)試,以識(shí)別文本消息中的語(yǔ)言的組或類別(例如,西里爾語(yǔ)言或拉丁語(yǔ)言)。一旦識(shí)別出語(yǔ)言類別,就可以使用為該語(yǔ)言類別設(shè)計(jì)的語(yǔ)言檢測(cè)技術(shù)來(lái)識(shí)別消息中的特定語(yǔ)言。在優(yōu)選示例中,在語(yǔ)言檢測(cè)之前從文本消息中去除無(wú)關(guān)元素(例如,表情符號(hào)或數(shù)字或數(shù)字字符),從而導(dǎo)致更快和更準(zhǔn)確的語(yǔ)言檢測(cè)。本文描述的系統(tǒng)和方法通常比現(xiàn)有語(yǔ)言檢測(cè)方法更準(zhǔn)確和高效。系統(tǒng)和方法可以被配置為使用本文描述的任何一種或多種語(yǔ)言檢測(cè)方法。
在一個(gè)方面,本公開的主題涉及一種識(shí)別消息中的語(yǔ)言的計(jì)算機(jī)實(shí)現(xiàn)的方法。該方法包括:獲得文本消息;從文本消息中去除非語(yǔ)言字符以生成清理的文本消息;檢測(cè)清理的文本消息中存在的字母和文字系統(tǒng)中的至少一個(gè),其中檢測(cè)包括以下中的至少一個(gè):(i)執(zhí)行基于字母的語(yǔ)言檢測(cè)測(cè)試以確定第一組分?jǐn)?shù),其中第一組分?jǐn)?shù)中的每個(gè)分?jǐn)?shù)表示清理的文本消息包括多種不同的語(yǔ)言之一的字母的可能性;和(ii)執(zhí)行基于文字系統(tǒng)的語(yǔ)言檢測(cè)測(cè)試以確定第二組分?jǐn)?shù),其中第二組分?jǐn)?shù)中的每個(gè)分?jǐn)?shù)表示清理的文本消息包括所述多種不同的語(yǔ)言之一的文字系統(tǒng)的可能性。該方法還包括基于第一組分?jǐn)?shù)、第二組分?jǐn)?shù)以及第一和第二組分?jǐn)?shù)的組合中的至少一個(gè)來(lái)識(shí)別清理的文本消息中的語(yǔ)言。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于MZ知識(shí)產(chǎn)權(quán)控股有限責(zé)任公司,未經(jīng)MZ知識(shí)產(chǎn)權(quán)控股有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780074219.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:利用神經(jīng)網(wǎng)絡(luò)和在線學(xué)習(xí)的語(yǔ)言數(shù)據(jù)預(yù)測(cè)
- 下一篇:用于對(duì)技術(shù)系統(tǒng)進(jìn)行建模的方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 在文本消息設(shè)備中映射文本和音頻信息及其方法
- 一種傳遞文本消息的方法
- 移動(dòng)無(wú)線終端的以圖形方式劃分文本消息內(nèi)容的方法和系統(tǒng)
- 利用移動(dòng)終端的文本消息傳遞
- 消息處理服務(wù)器及方法、無(wú)線設(shè)備及其操作方法
- 一種網(wǎng)絡(luò)平臺(tái)展示富文本消息的方法和裝置
- 用于通過(guò)分組交換網(wǎng)絡(luò)遞送應(yīng)用發(fā)起文本消息的方法和裝置
- 一種回復(fù)消息的方法和裝置
- 一種消息文本的處理方法及終端設(shè)備
- 一種設(shè)備通信協(xié)議識(shí)別方法和裝置
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 世界文字信息數(shù)字化運(yùn)算編碼輸入方法及其信息處理系統(tǒng)
- 一種排版系統(tǒng)及其生成文字框的方法
- 一種調(diào)整終端文字的方法、裝置及終端
- 世界文字信息數(shù)字化運(yùn)算編碼輸入方法及其信息處理系統(tǒng)
- 一種安卓系統(tǒng)中標(biāo)簽文本視圖的實(shí)現(xiàn)方法及系統(tǒng)
- 一種文字提取系統(tǒng)、方法、介質(zhì)和計(jì)算設(shè)備
- 字重調(diào)節(jié)方法、裝置、終端及存儲(chǔ)介質(zhì)
- 文字識(shí)別方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于加密標(biāo)簽算法的身份驗(yàn)證系統(tǒng)及其工作方法
- OCR系統(tǒng)的評(píng)估方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)





