[發明專利]文本處理方法及裝置在審
| 申請號: | 201910267704.8 | 申請日: | 2019-04-03 |
| 公開(公告)號: | CN111797614A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 劉恒友;李辰;包祖貽;李林琳;司羅 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F3/023;G06F16/9535 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 錢秀茹 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 | ||
本申請實施例提供了一種文本處理方法及裝置。在本申請中,對第一用戶輸入的第一文本糾錯得到候選糾錯文本,且在得到每一個候選糾錯文本的正確度之后,再基于在歷史過程中對至少一個候選糾錯文本的反饋信息,調整至少一個候選糾錯文本的正確度,該反饋信息包括在歷史過程中第一用戶對至少一個候選糾錯文本的反饋信息,從而可以使得候選糾錯文本的正確度對于第一用戶而言更加準確,之后選擇預設數量個按照正確度由高到低排列的候選糾錯文本,可以增大選擇出的候選糾錯文本為第一用戶實際想要輸入的文本的概率。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本處理方法及裝置。
背景技術
隨著技術的不斷發展,用戶可以通過搜索引擎搜索用戶需要的網絡資源。當用戶需要搜索某一資源時,用戶可以在通過搜索引擎的搜索框中輸入搜索詞匯查找資源,搜索引擎會在數據庫中搜尋與搜索詞關聯的資源,并將與搜索詞關聯的資源返回給用戶。
然而,用戶在搜索框中輸入搜索詞的過程中,有時候可能存在輸入錯誤的情況,例如,在通過拼音輸入漢字時混淆了一些拼音的發音,造成輸入錯誤,如將“l”輸入成“n”,或者,用戶混淆了一些字型的寫法造成輸入錯誤,如將“薺菜”輸入為齊菜”等。如此,用戶在搜索框中輸入的是錯誤的搜索詞,這樣搜索引擎就會在數據庫中搜尋與錯誤的搜索詞關聯的資源,并將與錯誤的搜索詞關聯的資源返回給用戶。但是,與錯誤的搜索詞關聯的資源并不是用戶想要的資源。
發明內容
本申請實施例示出了一種文本處理方法及裝置。
第一方面,本申請實施例示出了一種文本處理方法,所述方法包括:
獲取第一用戶輸入的第一文本;
對所述第一文本糾錯,得到多個候選糾錯文本;
獲取每一個候選糾錯文本的正確度;
基于在歷史過程中對至少一個候選糾錯文本的反饋信息,調整至少一個候選糾錯文本的正確度;
選擇預設數量個按照正確度由高到低排列的候選糾錯文本。
在一個可選的實現方式中:
對于每一個候選糾錯文本,獲取所述候選糾錯文本的語言模型分值,獲取所述候選糾錯文本的轉移概率,基于所述語言模型分值和所述轉移概率獲取所述候選糾錯文本的正確度。
在一個可選的實現方式中:
獲取所述候選糾錯文本的拼音以及第一文本的拼音;
在所述候選糾錯文本的拼音以及第一文本的拼音中,確定位置相同但內容不同的字母對,獲取每一個字母對對應的轉移概率;
獲取在歷史過程中的輸入的文本的拼音中的字母輸錯的概率;
計算每一個字母對對應的轉移概率之間的乘積,并計算所述乘積與所述字母輸錯的概率之間的乘積,得到所述候選糾錯文本的轉移概率。
在一個可選的實現方式中:
獲取字母對與轉移概率之間的第一對應關系;
在所述第一對應關系中分別查找與每一個字母對相對應的轉移概率。
在一個可選的實現方式中:
獲取在歷史過程中的糾錯語料,所述糾錯語料包括至少一個糾錯前文本與對糾錯前文本糾錯得到的糾錯后文本;
根據所述糾錯語料生成平行語料,所述平行語料用于記錄正確的詞匯和正確的詞匯對應的候選錯誤詞匯;
獲取所述平行語料中的詞匯的拼音;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910267704.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:溫度預測方法、裝置及存儲介質
- 下一篇:虛實信息整合空間定位系統





