[發(fā)明專利]文本的糾錯(cuò)方法、裝置和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201811426082.0 | 申請(qǐng)日: | 2018-11-27 |
| 公開(公告)號(hào): | CN111310440B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計(jì))人: | 包祖貽;李辰;徐光偉;劉恒友;李林琳;司羅 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232 |
| 代理公司: | 北京博浩百睿知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11134 | 代理人: | 褚敏;宋子良 |
| 地址: | 英屬開曼群島大開*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 糾錯(cuò) 方法 裝置 系統(tǒng) | ||
本發(fā)明公開了一種文本的糾錯(cuò)方法、裝置和系統(tǒng)。其中,該方法包括:獲取目標(biāo)文本對(duì)應(yīng)的候選詞,其中,通過(guò)對(duì)目標(biāo)文本中包含的詞語(yǔ)進(jìn)行變形得到候選詞;然后采用多種評(píng)估方式對(duì)每個(gè)候選詞進(jìn)行評(píng)估,得到每個(gè)候選詞在多種評(píng)估方式下的評(píng)估值;根據(jù)每個(gè)候選詞對(duì)應(yīng)的評(píng)估值獲取用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞;基于用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞對(duì)目標(biāo)文本進(jìn)行糾錯(cuò),達(dá)到了文本糾錯(cuò)的目的。本申請(qǐng)通過(guò)利用多種手段召回候選詞,并使用多種評(píng)估方式對(duì)候選詞進(jìn)行打分,搜索排序得到用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞,進(jìn)而解決了文本糾錯(cuò)準(zhǔn)確度低和糾錯(cuò)代價(jià)高的技術(shù)問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)言信息處理領(lǐng)域,具體而言,涉及一種文本的糾錯(cuò)方法、裝置和系統(tǒng)。
背景技術(shù)
隨著搜索技術(shù)的發(fā)展,各種輸入法層出不窮。然而,用戶在輸入文本時(shí),并不一定會(huì)對(duì)自己的輸入進(jìn)行檢查修改,輸入的單詞中往往會(huì)存在拼寫錯(cuò)誤,拼寫錯(cuò)誤的單詞在人與人的對(duì)話過(guò)程中,可以由人結(jié)合上下文解讀其意義,相當(dāng)于隱含地對(duì)文本進(jìn)行了“糾正”。而對(duì)于相似度計(jì)算、搜索倒排等計(jì)算機(jī)系統(tǒng)來(lái)說(shuō),這樣不標(biāo)準(zhǔn)的輸入大大增加了輸入的稀疏性,對(duì)系統(tǒng)性能產(chǎn)生不利的影響。所以一個(gè)性能良好的拼寫糾錯(cuò)方法、系統(tǒng)是非常有價(jià)值的。
根據(jù)用戶輸入文本無(wú)法得到搜索結(jié)果的情況,現(xiàn)有技術(shù)提供了幾種對(duì)用戶輸入的文本進(jìn)行糾錯(cuò)的方法:方式1:將用戶輸入的文本分詞與詞典中的標(biāo)準(zhǔn)詞進(jìn)行匹配,若完全匹配,則不作處理,若未完全匹配,則查找與用戶輸入的文本分詞相似度最高的標(biāo)準(zhǔn)詞,并用該標(biāo)準(zhǔn)詞進(jìn)行搜索,若搜索成功則將該相似度最高的標(biāo)準(zhǔn)詞反饋給用戶確認(rèn),若搜索失敗則不作處理。方式2:基于翻譯的糾錯(cuò)模型,使用翻譯模型對(duì)輸入進(jìn)行“翻譯”,“翻譯”為拼寫正確的文本。
上述方式雖然都能在一定程度上對(duì)查詢不成功的文本進(jìn)行糾錯(cuò),但是兩種方式均存在缺陷。方式1只能對(duì)字形相似的分詞進(jìn)行糾錯(cuò),即只有用戶輸入的文本分詞字形較為準(zhǔn)確的情況下才能準(zhǔn)確的進(jìn)行糾錯(cuò)。方式2的訓(xùn)練翻譯模型需要大量的標(biāo)注數(shù)據(jù),訓(xùn)練代價(jià)非常高昂。因此,現(xiàn)有技術(shù)中文本的糾錯(cuò)方法難以滿足用戶需求。
針對(duì)現(xiàn)有技術(shù)中文本糾錯(cuò)準(zhǔn)確度低和糾錯(cuò)代價(jià)高的技術(shù)問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種文本的糾錯(cuò)方法、裝置和系統(tǒng),以至少解決現(xiàn)有技術(shù)中文本糾錯(cuò)準(zhǔn)確度低或糾錯(cuò)代價(jià)高的技術(shù)問(wèn)題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種文本的糾錯(cuò)方法,包括:獲取目標(biāo)文本對(duì)應(yīng)的候選詞,其中,通過(guò)對(duì)目標(biāo)文本中包含的詞語(yǔ)進(jìn)行變形得到候選詞;采用多種評(píng)估方式對(duì)每個(gè)候選詞進(jìn)行評(píng)估,得到每個(gè)候選詞在多種評(píng)估方式下的評(píng)估值;根據(jù)每個(gè)候選詞對(duì)應(yīng)的評(píng)估值獲取用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞;基于用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞對(duì)目標(biāo)文本進(jìn)行糾錯(cuò)。
根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種文本的糾錯(cuò)裝置,包括:獲取模塊,用于獲取目標(biāo)文本對(duì)應(yīng)的候選詞,其中,通過(guò)對(duì)目標(biāo)文本中包含的詞語(yǔ)進(jìn)行變形得到候選詞;評(píng)估模塊,用于采用多種評(píng)估方式對(duì)每個(gè)候選詞進(jìn)行評(píng)估,得到每個(gè)候選詞在多種評(píng)估方式下的評(píng)估值;確定模塊,用于根據(jù)每個(gè)候選詞對(duì)應(yīng)的評(píng)估值獲取用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞;糾錯(cuò)模塊,用于基于用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞對(duì)目標(biāo)文本進(jìn)行糾錯(cuò)
根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種存儲(chǔ)介質(zhì),其中,存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在程序運(yùn)行時(shí)控制存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如下步驟:獲取目標(biāo)文本對(duì)應(yīng)的候選詞,其中,通過(guò)對(duì)目標(biāo)文本中包含的詞語(yǔ)進(jìn)行變形得到候選詞;采用多種評(píng)估方式對(duì)每個(gè)候選詞進(jìn)行評(píng)估,得到每個(gè)候選詞在多種評(píng)估方式下的評(píng)估值;根據(jù)每個(gè)候選詞對(duì)應(yīng)的評(píng)估值獲取用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞;基于用于進(jìn)行糾錯(cuò)的至少一個(gè)候選詞對(duì)目標(biāo)文本進(jìn)行糾錯(cuò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811426082.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





