[發(fā)明專利]詞語糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010675640.8 | 申請(qǐng)日: | 2020-07-14 | 
| 公開(公告)號(hào): | CN112001168A | 公開(公告)日: | 2020-11-27 | 
| 發(fā)明(設(shè)計(jì))人: | 高巖峰;周冰;任化強(qiáng);李敏;李東曉 | 申請(qǐng)(專利權(quán))人: | 咪咕文化科技有限公司;中國(guó)移動(dòng)通信集團(tuán)有限公司 | 
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/284;G06F3/023 | 
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王宇楊 | 
| 地址: | 100032*** | 國(guó)省代碼: | 北京;11 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞語 糾錯(cuò) 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明實(shí)施例提供一種詞語糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。方法包括:確定與用戶輸入詞相對(duì)應(yīng)的備選詞;根據(jù)所述用戶輸入詞與所述備選詞,確定特征詞;根據(jù)所述特征詞文本以及所述特征詞文本在用戶輸入詞中的位置信息,構(gòu)建特征詞樹,根據(jù)所述特征詞樹得到復(fù)合特征詞集合;根據(jù)所述復(fù)合特征詞集合中的復(fù)合特征詞的評(píng)分排序結(jié)果,得到所述用戶輸入詞的糾錯(cuò)結(jié)果。本發(fā)明實(shí)施例提供的詞語糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過為特征詞創(chuàng)建特征詞樹,根據(jù)特征詞樹確定復(fù)合特征詞,然后根據(jù)多個(gè)復(fù)合特征詞的評(píng)分排序結(jié)果確定用戶輸入詞的糾錯(cuò)結(jié)果,實(shí)現(xiàn)了對(duì)組合詞語的自動(dòng)糾錯(cuò),具有較高的執(zhí)行效率。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理技術(shù)領(lǐng)域,尤其涉及一種詞語糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
用戶在電子設(shè)備上輸入文本信息時(shí),經(jīng)常會(huì)發(fā)生輸入錯(cuò)誤詞語的現(xiàn)象。例如,用戶輸入中文文本時(shí),采用拼音輸入法,將詞語中的漢字錯(cuò)寫為其同音字;或采用字形輸入法,將詞語中的漢字錯(cuò)寫為其形近字;或出現(xiàn)多字、少字、錯(cuò)字等情況。用戶輸入漢語拼音或外文文本時(shí),同樣會(huì)有類似的問題。
用戶輸入文本信息的錯(cuò)誤,會(huì)影響后續(xù)的信息處理流程。例如,用戶在利用搜索系統(tǒng)進(jìn)行搜索時(shí),如果輸入的搜索詞錯(cuò)誤,將影響搜索結(jié)果的準(zhǔn)確性,甚至無法搜索到所期望的搜索結(jié)果。
為此,現(xiàn)有技術(shù)中提供了能夠?qū)υ~語自動(dòng)糾錯(cuò)的方法,包括編輯距離算法以及加權(quán)編輯距離算法。
編輯距離算法針對(duì)兩個(gè)字符串(例如英文字)的差異程度進(jìn)行量化量測(cè),量測(cè)方式是看至少需要多少次的處理才能將一個(gè)字符串變成另一個(gè)字符串。編輯距離算法可以用在自然語言處理中,例如在拼寫檢查過程中可以根據(jù)一個(gè)拼錯(cuò)的字和其他正確的字的編輯距離,判斷哪一個(gè)(或哪幾個(gè))是比較可能的字。
加權(quán)編輯距離算法計(jì)算搜索詞與預(yù)先獲取的熱詞之間的加權(quán)編輯距離,其中,在加權(quán)編輯距離的計(jì)算過程中,針對(duì)從搜索詞轉(zhuǎn)換到熱詞的操作,分別針對(duì)插入字符串操作、刪除字符串操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設(shè)置不同數(shù)值的權(quán)重;然后根據(jù)所述加權(quán)編輯距離和熱詞熱度,選取預(yù)定數(shù)目的熱詞進(jìn)行糾錯(cuò)提示。
但無論是編輯距離算法,還是加權(quán)編輯距離算法,在實(shí)現(xiàn)時(shí)均將用戶輸入詞與一個(gè)備選詞進(jìn)行比較,而沒有同時(shí)與兩個(gè)或多個(gè)備選詞進(jìn)行比較的操作,因此都無法直接支持組合詞的自動(dòng)糾錯(cuò)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種詞語糾錯(cuò)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中的詞語糾錯(cuò)方法無法實(shí)現(xiàn)組合詞的自動(dòng)糾錯(cuò)的缺陷。
本發(fā)明第一方面實(shí)施例提供一種詞語糾錯(cuò)方法,包括:
確定與用戶輸入詞相對(duì)應(yīng)的備選詞;其中,所述用戶輸入詞為組合詞語;
根據(jù)所述用戶輸入詞與所述備選詞,確定特征詞;其中,所述特征詞是所述用戶輸入詞與所述備選詞的最大相似子字符串;所述特征詞包括:特征詞文本,特征詞文本在用戶輸入詞中的位置信息;
根據(jù)所述特征詞文本以及所述特征詞文本在用戶輸入詞中的位置信息,構(gòu)建特征詞樹,根據(jù)所述特征詞樹得到復(fù)合特征詞集合;其中,所述復(fù)合特征詞集合中的復(fù)合特征詞為所述特征詞的組合;
根據(jù)所述復(fù)合特征詞集合中的復(fù)合特征詞的評(píng)分排序結(jié)果,得到所述用戶輸入詞的糾錯(cuò)結(jié)果。
上述技術(shù)方案中,所述根據(jù)所述特征詞文本以及所述特征詞文本在用戶輸入詞中的位置信息,構(gòu)建特征詞樹,包括:
根據(jù)特征詞文本在用戶輸入詞中的位置信息創(chuàng)建樹節(jié)點(diǎn),將特征詞文本在用戶輸入詞中的位置信息相同的特征詞保存在同一樹節(jié)點(diǎn)下;其中,所述特征詞文本在用戶輸入詞中的位置信息包括:開始位置信息,結(jié)束位置信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于咪咕文化科技有限公司;中國(guó)移動(dòng)通信集團(tuán)有限公司,未經(jīng)咪咕文化科技有限公司;中國(guó)移動(dòng)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010675640.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
 - 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
 - 一種通訊綜合測(cè)試終端的測(cè)試方法
 - 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
 - 系統(tǒng)升級(jí)方法及裝置
 - 用于虛擬和接口方法調(diào)用的裝置和方法
 - 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
 - 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
 - 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
 - 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
 





