[發明專利]錯別字識別方法、裝置、設備及可讀存儲介質在審
| 申請號: | 202110227739.6 | 申請日: | 2021-03-01 |
| 公開(公告)號: | CN113705213A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 王晨琛 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F16/903;G06F16/906;G06N3/04;G06N3/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 朱佳 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 錯別字 識別 方法 裝置 設備 可讀 存儲 介質 | ||
1.一種錯別字識別方法,其特征在于,包括:
獲取針對已發布的媒體內容的目標評論數據;
根據所述目標評論數據包含的各個詞語的上下文信息,提取所述目標評論數據對應的目標文本特征;
基于所述目標文本特征,確定所述目標評論數據中包含有針對錯別字的目標評論內容;
基于所述目標評論內容,確定所述媒體內容中的錯別字信息。
2.如權利要求1所述的方法,其特征在于,所述根據所述目標評論數據包含的各個詞的上下文信息,提取所述目標評論數據的目標文本特征,包括:
將所述目標評論數據輸入已訓練的評論數據分類模型;
基于所述評論數據分類模型中的語言學習子模型,對所述目標評論數據包含的各個詞語的上下文信息進行特征提取,獲得所述目標評論數據對應的目標文本特征;
其中,所述語言學習子模型是將歷史評論數據作為訓練樣本,基于所述訓練樣本包含的各個詞語的上下文信息,對所述語言學習子模型進行特征學習的訓練得到的。
3.如權利要求2所述的方法,其特征在于,所述評論數據分類模型還包括預測子模型,基于所述目標文本特征,確定所述目標評論數據中包含有針對錯別字的目標評論內容,包括:
將所述目標文本特征輸入所述預測子模型;
基于所述預測子模型已學習的第一關聯度,預測所述目標文本特征與目標數據識別結果之間的第二關聯度,所述第一關聯度是基于歷史評論數據對應的歷史文本特征和所述目標數據識別結果之間的關聯程度確定的,所述目標數據識別結果用于表征文本數據中包含有針對錯別字的評論內容;
若所述第二關聯度大于關聯度閾值,則確定所述目標評論數據中包含所述目標評論內容。
4.如權利要求2所述的方法,其特征在于,所述語言學習子模型是通過下列方式訓練得到的:
基于歷史評論數據集合,對所述語言學習子模型進行訓練操作,一次訓練操作包括:針對從所述歷史評論數據集合獲得的各個歷史評論數據,分別執行文本預測操作,確定所述各個歷史評論數據各自對應的預測偏差;并基于各個歷史評論數據各自對應的預測偏差,對所述語言學習子模型進行參數調整;
其中,所述文本預測操作包括:
按照所述各個歷史評論數據中一個歷史評論數據的語言形式關聯的分詞規則,對所述一個歷史評論數據進行分詞處理,獲得所述一個歷史評論數據包含的至少一個詞語;
基于預設詞語掩膜,屏蔽所述至少一個詞語中的部分詞語;以及
確定所述部分詞語在所述一個歷史評論數據中的上下文信息,并從預配置的候選詞庫中,選取出與確定的上下文信息之間的匹配度滿足匹配度條件的候選詞語,所述候選詞庫基于所述歷史評論數據集合確定;
將所述部分詞語和選取出的候選詞語之間的偏差信息,確定為所述一個歷史評論數據對應的預測偏差。
5.如權利要求1-4任一項所述的方法,其特征在于,所述基于所述目標評論內容,確定所述媒體內容中的錯別字信息,包括:
基于用于識別所述錯別字信息的預配置的正則表達式,對所述目標評論內容進行解析,獲得相應的解析結果;
基于所述解析結果,確定所述目標評論內容關聯的至少一個錯別字,和所述至少一個錯別字在所述媒體內容中的文本位置信息;
將所述至少一個錯誤字和所述文本位置信息,確定為所述媒體內容中的錯別字信息。
6.如權利要求5所述的方法,其特征在于,所述方法進一步包括:
若基于所述解析結果未獲得所述錯別字信息,則基于預配置的錯別字檢測規則,對所述媒體內容進行錯別字檢測,獲得檢測結果;
根據所述檢測結果,確定所述媒體內容中是否包含對應的錯別字信息。
7.如權利要求1-4任一項所述的方法,其特征在于,所述基于所述目標評論內容,確定所述媒體內容中的錯別字信息,包括:
獲取發布所述目標評論數據的目標賬戶的賬戶信息;
基于所述賬戶信息,確定所述目標評論數據的置信度;
確定所述置信度達到置信度閾值時,基于所述目標評論內容,確定所述媒體內容中的錯別字信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110227739.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新詞發現方法及裝置、電子設備及存儲介質
- 下一篇:輸注連接管線





