[發明專利]拼寫糾錯方法、裝置、介質及電子設備在審
| 申請號: | 201810078938.3 | 申請日: | 2018-01-26 |
| 公開(公告)號: | CN110083819A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 車天博;鄒宇;馬勉;魯楠 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 闞梓瑄;王衛忠 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符串 拼寫 選擇概率 候選字符串 糾錯 電子設備 糾錯處理 自然語言理解技術 自動實現 保證 | ||
本發明實施例提供了一種拼寫糾錯方法、裝置、介質及電子設備,該拼寫糾錯方法包括:獲取待處理的字符串;根據所述待處理的字符串,確定所述待處理的字符串對應的候選字符串;計算所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率;根據所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率,對所述待處理的字符串進行拼寫糾錯處理。本發明實施例的技術方案能夠自動實現對字符串的拼寫糾錯處理,進而能夠保證自然語言理解技術準確識別到用戶的意圖,有利于提升用戶的體驗。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種拼寫糾錯方法、裝置、介質及電子設備。
背景技術
自然語言理解(Natural Language Understanding,簡稱NLU)技術涵蓋領域非常廣泛,包括句子檢測、分詞、詞性標注、句法分析、文本分類/聚類、信息抽取/自動摘要、機器翻譯、自動問答、文本生成等多個領域。自然語言理解技術的前提是用戶輸入正確的語句,但是實際情況卻是用戶輸入經常出現拼寫錯誤的問題,而拼寫錯誤將導致自然語言理解技術無法正確識別用戶的意圖,進而會影響用戶的體驗。
因此如何能夠有效地對用戶輸入的字符串進行拼寫糾錯成為亟待解決的技術問題。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本發明的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本發明實施例的目的在于提供一種拼寫糾錯方法、裝置、介質及電子設備,進而至少在一定程度上實現對用戶輸入的字符串自動進行拼寫糾錯處理。
本發明的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明的實踐而習得。
根據本發明實施例的第一方面,提供了一種拼寫糾錯方法,包括:獲取待處理的字符串;根據所述待處理的字符串,確定所述待處理的字符串對應的候選字符串;計算所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率;根據所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率,對所述待處理的字符串進行拼寫糾錯處理。
在本發明的一些實施例中,基于前述方案,根據所述待處理的字符串,確定所述待處理的字符串對應的候選字符串,包括:生成所述待處理的字符串對應的拼音;根據所述拼音,生成所述候選字符串。
在本發明的一些實施例中,基于前述方案,根據所述拼音,生成所述候選字符串,包括:根據所述拼音進行模糊匹配,以得到所述候選字符串。
在本發明的一些實施例中,基于前述方案,根據所述拼音進行模糊匹配,包括:確定與所述拼音相似的目標拼音;根據所述目標拼音,生成所述候選字符串。
在本發明的一些實施例中,基于前述方案,根據所述待處理的字符串,確定所述待處理的字符串對應的候選字符串,包括:從已存儲的字符串庫中查找與所述待處理的字符串之間的編輯距離小于或等于預定值的字符串作為所述候選字符串。
在本發明的一些實施例中,基于前述方案,計算所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率,包括:生成語言模型,所述語言模型用于描述一個字符串中的各個字符同時出現的概率;對所述語言模型進行訓練,得到訓練后的模型;基于所述訓練后的模型,確定所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率。
在本發明的一些實施例中,基于前述方案,根據所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率,對所述待處理的字符串進行拼寫糾錯處理,包括:根據所述待處理的字符串中各個字符的選擇概率和所述候選字符串中各個字符的選擇概率,對所述待處理的字符串和所述候選字符串進行對比,得到對比結果;根據所述對比結果,確定是否通過所述候選字符串對所述待處理的字符串進行拼寫糾錯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810078938.3/2.html,轉載請聲明來源鉆瓜專利網。





