[發(fā)明專利]錯別字的糾錯方法和裝置在審
| 申請?zhí)枺?/td> | 201710113617.8 | 申請日: | 2017-02-28 |
| 公開(公告)號: | CN106919681A | 公開(公告)日: | 2017-07-04 |
| 發(fā)明(設計)人: | 麥濤;張旭;劉洋;張騰;白楊 | 申請(專利權(quán))人: | 東軟集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務所(普通合伙)11447 | 代理人: | 魏嘉熹,南毅寧 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 錯別字 糾錯 方法 裝置 | ||
技術(shù)領(lǐng)域
本公開涉及文字處理技術(shù)領(lǐng)域,具體地,涉及一種錯別字的糾錯方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的普及和發(fā)展,我們可以通過互聯(lián)網(wǎng)和各類應用軟件來獲取我們?nèi)粘K璧母鞣N信息。在這一過程中搜索引擎扮演著不可缺少的角色,而確保搜索時所輸入的內(nèi)容的正確性(通常指搜索內(nèi)容中不含有錯別字)是保障搜索準確性與搜索效率的關(guān)鍵和前提。
目前的采用基于詞表、詞庫查詢方法的糾錯方法雖然準確率較高但是需要一定的人工參與,而采用的相似算法(如漢明算法)的糾錯方法雖不需人工參與但準確度卻很低。
因此,如何在不需要人工參與的情況下提高糾錯方法的準確度是目前亟需解決的問題。
發(fā)明內(nèi)容
本公開的目的是提供一種錯別字的糾錯方法和裝置,用于解決在沒有人工參與的情況下糾錯方法的準確度低的問題。
為了實現(xiàn)上述目的,本公開提供一種錯別字的糾錯方法,所述方法包括:
根據(jù)輸入的目標詞語的字數(shù)和拼音獲取候選詞語;
獲取每個所述候選詞語在所有所述候選詞語中的詞頻占比;
獲取每個所述候選詞語與所述目標詞語的詞語相似度、拼音相似度和筆畫相似度;
根據(jù)每個所述候選詞語的所述詞頻占比、所述詞語相似度、所述拼音相似度和所述筆畫相似度在所有所述候選詞語中選擇符合預設條件的目標候選詞語;
利用所述目標候選詞語替換所述目標詞語。
可選的,所述根據(jù)輸入的目標詞語的字數(shù)和拼音獲取候選詞語,包括:
獲取所述目標詞語的字數(shù)和拼音;
在數(shù)據(jù)庫中獲取與所述目標詞語的字數(shù)相同的詞語作為待提取詞語;
獲取每個所述待提取詞語的拼音;
將每個所述待提取詞語中每個字的拼音與所述目標詞語中對應字的拼音進行對比,獲取每個所述待提取詞語與所述目標詞語的字音相似比例,所述字音相似比例為任一所述待提取詞語與所述目標詞語中拼音相同的字所占的比例;
提取所有所述待提取詞語中的字音相似比例大于預設比例的待提取詞語作為所述候選詞語。
可選的,所述獲取每個所述候選詞語與所述目標詞語的詞語相似度、拼音相似度和筆畫相似度,包括:
在每個所述候選詞語以及所述目標詞語中,確定每個所述候選詞語與所述目標詞語的不同字;
根據(jù)每個所述候選詞語與所述目標詞語的不同字獲取每個所述候選詞語與所述目標詞語的詞語相似度;
根據(jù)每個所述候選詞語與所述目標詞語的不同字獲取每個所述候選詞語與所述目標詞語的拼音相似度;
根據(jù)每個所述候選詞語與所述目標詞語的不同字獲取每個所述候選詞語與所述目標詞語的筆畫相似度。
可選的,所述根據(jù)每個所述候選詞語與所述目標詞語的不同字獲取每個所述候選詞語與所述目標詞語的詞語相似度,包括:
獲取每個所述候選詞語與所述目標詞語的不同字之間的漢明距離,作為每個所述候選詞語的漢明距離;
根據(jù)每個所述候選詞語的漢明距離獲取每個所述候選詞語與所述目標詞語的詞語相似度。
可選的,所述根據(jù)每個所述候選詞語與所述目標詞語的不同字獲取每個所述候選詞語與所述目標詞語的拼音相似度,包括:
將每個所述候選詞語與所述目標詞語的不同字的拼音字母進行逐位比較,確定每個所述候選詞語與所述目標詞語不同的拼音字母的個數(shù);
根據(jù)每個所述候選詞語與所述目標詞語不同的拼音字母的個數(shù),以及所述目標詞語的拼音字母的總字數(shù)確定每個所述候選詞語與所述目標詞語的拼音相似度。
可選的,所述根據(jù)每個所述候選詞語與所述目標詞語的不同字獲取每個所述候選詞語與所述目標詞語的筆畫相似度,包括:
將每個所述候選詞語與所述目標詞語的不同字的筆畫進行逐個比較,確定每個所述候選詞語與所述目標詞語不同的筆畫的個數(shù);
根據(jù)每個所述候選詞語與所述目標詞語不同的筆畫的個數(shù),以及所述目標詞匯的總筆畫數(shù)確定每個所述候選詞語與所述目標詞語的筆畫相似度。
可選的,所述根據(jù)每個所述候選詞語的所述詞頻占比、所述詞語相似度、所述拼音相似度和所述筆畫相似度在所有所述候選詞語中選擇符合預設條件的目標候選詞語,包括:
按照預設算法將所述每個所述候選詞語的所述詞頻占比、所述詞語相似度、所述拼音相似度和所述筆畫相似度分別換算為詞語熱度分值、詞語相似度分值、拼音相似度分值和筆畫相似度分值;
將每個所述候選詞語的所述詞語熱度分值、詞語相似度分值、拼音相似度分值和筆畫相似度分值求和,得到每個所述候選詞語的總分;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團股份有限公司,未經(jīng)東軟集團股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710113617.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





