[發(fā)明專利]文本處理方法及裝置在審
| 申請?zhí)枺?/td> | 201910267704.8 | 申請日: | 2019-04-03 |
| 公開(公告)號: | CN111797614A | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計)人: | 劉恒友;李辰;包祖貽;李林琳;司羅 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F3/023;G06F16/9535 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 錢秀茹 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 處理 方法 裝置 | ||
本申請實施例提供了一種文本處理方法及裝置。在本申請中,對第一用戶輸入的第一文本糾錯得到候選糾錯文本,且在得到每一個候選糾錯文本的正確度之后,再基于在歷史過程中對至少一個候選糾錯文本的反饋信息,調(diào)整至少一個候選糾錯文本的正確度,該反饋信息包括在歷史過程中第一用戶對至少一個候選糾錯文本的反饋信息,從而可以使得候選糾錯文本的正確度對于第一用戶而言更加準(zhǔn)確,之后選擇預(yù)設(shè)數(shù)量個按照正確度由高到低排列的候選糾錯文本,可以增大選擇出的候選糾錯文本為第一用戶實際想要輸入的文本的概率。
技術(shù)領(lǐng)域
本申請涉及計算機技術(shù)領(lǐng)域,特別是涉及一種文本處理方法及裝置。
背景技術(shù)
隨著技術(shù)的不斷發(fā)展,用戶可以通過搜索引擎搜索用戶需要的網(wǎng)絡(luò)資源。當(dāng)用戶需要搜索某一資源時,用戶可以在通過搜索引擎的搜索框中輸入搜索詞匯查找資源,搜索引擎會在數(shù)據(jù)庫中搜尋與搜索詞關(guān)聯(lián)的資源,并將與搜索詞關(guān)聯(lián)的資源返回給用戶。
然而,用戶在搜索框中輸入搜索詞的過程中,有時候可能存在輸入錯誤的情況,例如,在通過拼音輸入漢字時混淆了一些拼音的發(fā)音,造成輸入錯誤,如將“l(fā)”輸入成“n”,或者,用戶混淆了一些字型的寫法造成輸入錯誤,如將“薺菜”輸入為齊菜”等。如此,用戶在搜索框中輸入的是錯誤的搜索詞,這樣搜索引擎就會在數(shù)據(jù)庫中搜尋與錯誤的搜索詞關(guān)聯(lián)的資源,并將與錯誤的搜索詞關(guān)聯(lián)的資源返回給用戶。但是,與錯誤的搜索詞關(guān)聯(lián)的資源并不是用戶想要的資源。
發(fā)明內(nèi)容
本申請實施例示出了一種文本處理方法及裝置。
第一方面,本申請實施例示出了一種文本處理方法,所述方法包括:
獲取第一用戶輸入的第一文本;
對所述第一文本糾錯,得到多個候選糾錯文本;
獲取每一個候選糾錯文本的正確度;
基于在歷史過程中對至少一個候選糾錯文本的反饋信息,調(diào)整至少一個候選糾錯文本的正確度;
選擇預(yù)設(shè)數(shù)量個按照正確度由高到低排列的候選糾錯文本。
在一個可選的實現(xiàn)方式中:
對于每一個候選糾錯文本,獲取所述候選糾錯文本的語言模型分值,獲取所述候選糾錯文本的轉(zhuǎn)移概率,基于所述語言模型分值和所述轉(zhuǎn)移概率獲取所述候選糾錯文本的正確度。
在一個可選的實現(xiàn)方式中:
獲取所述候選糾錯文本的拼音以及第一文本的拼音;
在所述候選糾錯文本的拼音以及第一文本的拼音中,確定位置相同但內(nèi)容不同的字母對,獲取每一個字母對對應(yīng)的轉(zhuǎn)移概率;
獲取在歷史過程中的輸入的文本的拼音中的字母輸錯的概率;
計算每一個字母對對應(yīng)的轉(zhuǎn)移概率之間的乘積,并計算所述乘積與所述字母輸錯的概率之間的乘積,得到所述候選糾錯文本的轉(zhuǎn)移概率。
在一個可選的實現(xiàn)方式中:
獲取字母對與轉(zhuǎn)移概率之間的第一對應(yīng)關(guān)系;
在所述第一對應(yīng)關(guān)系中分別查找與每一個字母對相對應(yīng)的轉(zhuǎn)移概率。
在一個可選的實現(xiàn)方式中:
獲取在歷史過程中的糾錯語料,所述糾錯語料包括至少一個糾錯前文本與對糾錯前文本糾錯得到的糾錯后文本;
根據(jù)所述糾錯語料生成平行語料,所述平行語料用于記錄正確的詞匯和正確的詞匯對應(yīng)的候選錯誤詞匯;
獲取所述平行語料中的詞匯的拼音;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910267704.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





