[發明專利]一種應用于垂直領域的專業詞匯糾錯方法及系統在審
| 申請號: | 201810651482.5 | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN110633463A | 公開(公告)日: | 2019-12-31 |
| 發明(設計)人: | 趙鵬;吳雪軍 | 申請(專利權)人: | 鼎復數據科技(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 11426 北京康思博達知識產權代理事務所(普通合伙) | 代理人: | 孫建玲;劉冬梅 |
| 地址: | 100020 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 專業詞匯 混淆 糾錯 分詞處理 會話 拼寫 機器人 意圖識別 遍歷 單輪 多輪 構建 加載 客服 句子 替換 詞語 耗時 垂直 智能 對話 應用 | ||
1.一種應用于垂直領域的專業詞匯糾錯方法,其特征在于,該方法包括以下步驟:
步驟100),構建混淆集,所述混淆集中包括有拼寫正確的專業詞匯和與專業詞匯對應的易混淆詞;
步驟200),對用戶拼寫輸入的句子進行分詞處理;
步驟300),加載混淆集,對分詞處理后的每個詞語進行混淆集遍歷,識別存在的易混淆詞,并替換為正確的專業詞匯,完成糾錯。
2.根據權利要求1所述的方法,其特征在于,步驟100)包括以下子步驟:
子步驟110),根據垂直領域中的專業詞匯構建專業詞匯詞典;
子步驟120),構建易混淆字典,其中包括基準漢字、以及與該基準漢字對應的多個易混淆字;
子步驟130),利用易混淆字典中的易混淆字,對專業詞匯詞典中的專業詞匯進行單字替換和雙字替換,形成初步混淆集;該初步混淆集中包括拼寫正確的專業詞匯、以及經易混淆字替換專業詞匯中基準漢字后形成的易混淆詞。
3.根據權利要求2所述的方法,其特征在于,在子步驟110)中,專業詞匯詞典的構建可以是對該垂直領域中所有專業詞匯進行整理、匯總得到;
優選地,專業詞匯詞典的構建是針對設定類別的專業詞匯進行整理、匯總得到,該設定類別中的專業詞匯的人為拼寫錯誤率較高。
4.根據權利要求2所述的方法,其特征在于,在子步驟120)中,易混淆字典的數據集格式是key-value格式,key為基準漢字,value為該基準漢字可能的錯誤拼寫形式,即多個易混淆字;
該錯誤拼寫形式包括基準漢字的同音同調錯誤拼寫形式、同音異調錯誤拼寫形式、近音同調錯誤拼寫形式、以及近音異調錯誤拼寫形式。
5.根據權利要求1所述的方法,其特征在于,在步驟100)中還包括子步驟140),對專業詞匯詞典和易混淆字典進行優化,利用優化后的易混淆字典,對優化后的專業詞匯詞典中的專業詞匯進行單字替換和雙字替換,形成優化后的混淆集;
優選地,該優化后的混淆集包括單字替換混淆集和雙字替換混淆集,即專業詞匯和經單字替換后形成的易混淆詞構成易混淆詞對包含在單字替換混淆集中,專業詞匯和經雙字替換后形成的易混淆詞構成易混淆詞對包含在雙字替換混淆集中。
6.根據權利要求5所述的方法,其特征在于,在子步驟140)中,對專業詞匯詞典進行優化包括:利用初步混淆集對專業詞匯詞典進行過濾,得到存在于專業詞匯詞典中的易混淆詞對,并對易混淆詞對中拼寫錯誤的專業詞匯進行修改;和/或
對易混淆字典進行優化包括:根據基準漢字的字頻確定其要保留的錯誤拼寫形式漢字即易混淆字的數量;字頻越高的基準漢字,其要保留的錯誤拼寫形式漢字即易混淆字的數量越少;
優選地,對易混淆字典中錯誤拼寫形式的漢字進行字頻排序,優先保留字頻高的錯誤拼寫形式的漢字。
7.根據權利要求5所述的方法,其特征在于,在子步驟140)中,對優化后的混淆集進行進一步優化,包括:根據混淆集中易混淆詞的詞頻,去除詞頻高于設定閾值的易混淆詞;
進一步地,對去除的易混淆詞進行篩查,確定普遍在用戶輸入語句中出現并用于表示其他有效含義的易混淆詞,將該易混淆詞重新加入優化后的混淆集中。
8.根據權利要求5所述的方法,其特征在于,在子步驟140)中,對優化后的混淆集進行進一步優化,還包括:增加語序錯誤的情況,即將優化后的專業詞匯中的漢字打亂順序形成易混淆詞對補充到混淆集中;
優選地,選擇優化后的專業詞匯詞典中字數為3~4個字的專業詞匯,將字數為3個字的專業詞匯、與專業詞匯中的字以所有可能的排布方式組成的易混淆詞形成易混淆詞對后,補充到混淆集中;將字數為4個字的專業詞匯、與專業詞匯中位于中間的兩個字交換后組成的易混淆詞形成易混淆詞對后,補充到混淆集中。
9.根據權利要求2所述的方法,其特征在于,在步驟200)中,結合分詞詞典進行分詞處理,其中,
將優化后的混淆集中的專業詞匯錄入分詞詞典中。
10.一種用于實施上述權利要求1至9之一所述方法的系統,該系統包括:
混淆集構建模塊:用于構建混淆集,所述混淆集中包括有拼寫正確的專業詞匯和與專業詞匯對應的易混淆詞;
分詞模塊:用于對用戶拼寫輸入的句子進行分詞處理;
糾錯模塊,用于加載混淆集,對分詞處理后的每個詞語進行混淆集遍歷,識別存在的易混淆詞,并替換為正確的專業詞匯,完成糾錯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎復數據科技(北京)有限公司,未經鼎復數據科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810651482.5/1.html,轉載請聲明來源鉆瓜專利網。





