[發明專利]錯別字識別方法、裝置、設備及可讀存儲介質在審
| 申請號: | 202110227739.6 | 申請日: | 2021-03-01 |
| 公開(公告)號: | CN113705213A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 王晨琛 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F16/903;G06F16/906;G06N3/04;G06N3/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 朱佳 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 錯別字 識別 方法 裝置 設備 可讀 存儲 介質 | ||
本申請提供一種錯別字識別方法、裝置、設備及可讀存儲介質,涉及計人工智能技術領域,以提升識別媒體內容中的錯別字的準確度。該方法包括:獲取針對已發布的媒體內容的目標評論數據,根據所述目標評論數據包含的各個詞語的上下文信息,提取所述目標評論數據對應的目標文本特征,基于所述目標文本特征,確定所述目標評論數據中包含有針對錯別字的目標評論內容,基于所述目標評論內容,確定所述媒體內容中的錯別字信息。該方法中能夠識別出歷史媒體內容中未出現過的錯別字或特殊詞,進而提升識別媒體內容中的錯別字的準確度,且在識別錯別字的過程中,不需要對整個媒體內容進行檢測,提升了識別媒體內容中的錯別字的效率。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種錯別字識別方法、裝置、設備及可讀存儲介質。
背景技術
相關技術中一般預先創建錯別字候選集,通過替換媒體內容中在錯別字候選集中出現的候選詞,基于上述候選詞對媒體內容的文本通順度的影響程度,判斷上述候選詞是否為錯別字,但這種方法只能檢測出錯別字候選集中已有的錯別字,并不能發現錯別字候選集中未出現過的錯別字或特殊詞,因此識別錯別字的范圍受限,如何降低識別錯別字的局限性以提升識別錯別字的準確度,是一個需要考慮的問題。
發明內容
本申請實施例提一種錯別字識別方法、裝置、設備及可讀存儲介質,用于提升識別媒體內容中的錯別字的準確度。
本申請第一方面,提供一種錯別字識別方法,包括:
獲取針對已發布的媒體內容的目標評論數據;
根據所述目標評論數據包含的各個詞語的上下文信息,提取所述目標評論數據對應的目標文本特征;
基于所述目標文本特征,確定所述目標評論數據中包含有針對錯別字的目標評論內容;
基于所述目標評論內容,確定所述媒體內容中的錯別字信息。
本申請第二方面,提供一種錯別字識別裝置,包括:
數據獲取單元,用于獲取針對已發布的媒體內容的目標評論數據;
特征提取單元,用于根據所述目標評論數據包含的各個詞語的上下文信息,提取所述目標評論數據對應的目標文本特征;
第一識別單元,用于基于所述目標文本特征,確定所述目標評論數據中包含有針對錯別字的目標評論內容;
第二識別單元,用于基于所述目標評論內容,確定所述媒體內容中的錯別字信息。
在一種可能的實現方式中,所述特征提取單元具體用于:
將所述目標評論數據輸入已訓練的評論數據分類模型;
基于所述評論數據分類模型中的語言學習子模型,對所述目標評論數據包含的各個詞語的上下文信息進行特征提取,獲得所述目標評論數據對應的目標文本特征;
其中,所述語言學習子模型是將歷史評論數據作為訓練樣本,基于所述訓練樣本包含的各個詞語的上下文信息,對所述語言學習子模型進行特征學習的訓練得到的。
在一種可能的實現方式中,所述評論數據分類模型還包括預測子模型,則所述第一識別單元具體用于:
將所述目標文本特征輸入所述預測子模型;
基于所述預測子模型已學習的第一關聯度,預測所述目標文本特征與目標數據識別結果之間的第二關聯度,所述第一關聯度是基于歷史評論數據對應的歷史文本特征和所述目標數據識別結果之間的關聯程度確定的,所述目標數據識別結果用于表征文本數據中包含有針對錯別字的評論內容;
若所述第二關聯度大于關聯度閾值,則確定所述目標評論數據中包含所述目標評論內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110227739.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新詞發現方法及裝置、電子設備及存儲介質
- 下一篇:輸注連接管線





