[發(fā)明專利]文本處理方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201910267704.8 | 申請(qǐng)日: | 2019-04-03 |
| 公開(公告)號(hào): | CN111797614A | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 劉恒友;李辰;包祖貽;李林琳;司羅 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F3/023;G06F16/9535 |
| 代理公司: | 北京潤澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 錢秀茹 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 處理 方法 裝置 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
獲取第一用戶輸入的第一文本;
對(duì)所述第一文本糾錯(cuò),得到多個(gè)候選糾錯(cuò)文本;
獲取每一個(gè)候選糾錯(cuò)文本的正確度;
基于在歷史過程中對(duì)至少一個(gè)候選糾錯(cuò)文本的反饋信息,調(diào)整至少一個(gè)候選糾錯(cuò)文本的正確度;
選擇預(yù)設(shè)數(shù)量個(gè)按照正確度由高到低排列的候選糾錯(cuò)文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:
對(duì)于每一個(gè)候選糾錯(cuò)文本,獲取所述候選糾錯(cuò)文本的語言模型分值,獲取所述候選糾錯(cuò)文本的轉(zhuǎn)移概率,基于所述語言模型分值和所述轉(zhuǎn)移概率獲取所述候選糾錯(cuò)文本的正確度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于:
獲取所述候選糾錯(cuò)文本的拼音以及第一文本的拼音;
在所述候選糾錯(cuò)文本的拼音以及第一文本的拼音中,確定位置相同但內(nèi)容不同的字母對(duì),獲取每一個(gè)字母對(duì)對(duì)應(yīng)的轉(zhuǎn)移概率;
獲取在歷史過程中的輸入的文本的拼音中的字母輸錯(cuò)的概率;
計(jì)算每一個(gè)字母對(duì)對(duì)應(yīng)的轉(zhuǎn)移概率之間的乘積,并計(jì)算所述乘積與所述字母輸錯(cuò)的概率之間的乘積,得到所述候選糾錯(cuò)文本的轉(zhuǎn)移概率。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于:
獲取字母對(duì)與轉(zhuǎn)移概率之間的第一對(duì)應(yīng)關(guān)系;
在所述第一對(duì)應(yīng)關(guān)系中分別查找與每一個(gè)字母對(duì)相對(duì)應(yīng)的轉(zhuǎn)移概率。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于:
獲取在歷史過程中的糾錯(cuò)語料,所述糾錯(cuò)語料包括至少一個(gè)糾錯(cuò)前文本與對(duì)糾錯(cuò)前文本糾錯(cuò)得到的糾錯(cuò)后文本;
根據(jù)所述糾錯(cuò)語料生成平行語料,所述平行語料用于記錄正確的詞匯和正確的詞匯對(duì)應(yīng)的候選錯(cuò)誤詞匯;
獲取所述平行語料中的詞匯的拼音;
在所述平行語料中的詞匯的拼音中,確定位置相同但內(nèi)容不同的字母對(duì),對(duì)于每一個(gè)字母對(duì),統(tǒng)計(jì)將所述字母對(duì)中的正確的詞匯的字母輸入成所述字母對(duì)中的錯(cuò)誤的詞匯的字幕的轉(zhuǎn)移概率,將所述字母對(duì)與所述轉(zhuǎn)移概率組成對(duì)應(yīng)表項(xiàng),并存儲(chǔ)在所述第一對(duì)應(yīng)關(guān)系中。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于:
所述糾錯(cuò)語料包括所述第一用戶在歷史過程中的糾錯(cuò)語料。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于:
所述糾錯(cuò)語料包括第二用戶在歷史過程中的糾錯(cuò)語料,其中,所述第二用戶包括所述第一用戶和第三用戶,所述第三用戶包括糾錯(cuò)語料與所述第一用戶的糾錯(cuò)語料之間的相似度大于預(yù)設(shè)閾值的用戶。
8.根據(jù)權(quán)利要求5所述的方法,其特征在于:
將所述糾錯(cuò)語料中的所有糾錯(cuò)前文本分詞,得到多個(gè)詞匯;
在所述多個(gè)詞匯中,將詞頻大于預(yù)設(shè)詞頻的詞匯確定為正確的詞匯;
對(duì)于每一個(gè)正確的詞匯,獲取所述正確的詞匯分別與所述多個(gè)詞匯中的除所有正確的詞匯以外的其他詞匯之間的相似度,將與所述正確的詞匯之間的相似度大于預(yù)設(shè)相似度的詞匯作為所述正確的詞匯的候選錯(cuò)誤詞匯,將所述正確的詞匯與候選錯(cuò)誤詞匯組成平行語料中。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于:
如果所述正確的詞匯在所述多個(gè)詞匯中的詞頻與所述候選錯(cuò)誤詞匯在所述多個(gè)詞匯中的詞頻之間的比值大于第一預(yù)設(shè)比值,則執(zhí)行所述將所述正確的詞匯與候選錯(cuò)誤詞匯組成平行語料中的步驟。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于:
在所述正確的詞匯與所述候選錯(cuò)誤詞匯均所在的相同的上下文環(huán)境中,如果所述正確的詞匯在所述相同的上下文環(huán)境中的詞頻與所述候選錯(cuò)誤詞匯在所述相同的上下文環(huán)境中的詞頻之間的比值大于第二預(yù)設(shè)比值,則執(zhí)行所述將所述正確的詞匯與候選錯(cuò)誤詞匯組成平行語料中的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910267704.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





