[發(fā)明專(zhuān)利]一種應(yīng)用于垂直領(lǐng)域的專(zhuān)業(yè)詞匯糾錯(cuò)方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810651482.5 | 申請(qǐng)日: | 2018-06-22 |
| 公開(kāi)(公告)號(hào): | CN110633463A | 公開(kāi)(公告)日: | 2019-12-31 |
| 發(fā)明(設(shè)計(jì))人: | 趙鵬;吳雪軍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鼎復(fù)數(shù)據(jù)科技(北京)有限公司 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27 |
| 代理公司: | 11426 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人: | 孫建玲;劉冬梅 |
| 地址: | 100020 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 專(zhuān)業(yè)詞匯 混淆 糾錯(cuò) 分詞處理 會(huì)話 拼寫(xiě) 機(jī)器人 意圖識(shí)別 遍歷 單輪 多輪 構(gòu)建 加載 客服 句子 替換 詞語(yǔ) 耗時(shí) 垂直 智能 對(duì)話 應(yīng)用 | ||
本發(fā)明公開(kāi)了一種應(yīng)用于垂直領(lǐng)域的智能對(duì)話機(jī)器人的專(zhuān)業(yè)詞匯糾錯(cuò)方法及系統(tǒng),實(shí)現(xiàn)過(guò)程為:構(gòu)建混淆集,所述混淆集中包括有拼寫(xiě)正確的專(zhuān)業(yè)詞匯和與專(zhuān)業(yè)詞匯對(duì)應(yīng)的易混淆詞;對(duì)用戶拼寫(xiě)輸入的句子進(jìn)行分詞處理;加載混淆集,對(duì)分詞處理后的每個(gè)詞語(yǔ)進(jìn)行遍歷,識(shí)別存在的易混淆詞,并替換為正確的專(zhuān)業(yè)詞匯,完成糾錯(cuò)。本發(fā)明中方法和系統(tǒng)可實(shí)現(xiàn)實(shí)時(shí)糾錯(cuò),耗時(shí)極少,有效的提升了客服機(jī)器人對(duì)用戶的意圖識(shí)別,提升了單輪會(huì)話和多輪會(huì)話的效果。
技術(shù)領(lǐng)域
本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及一種糾錯(cuò)方法及系統(tǒng);特別涉及一種應(yīng)用于垂直領(lǐng)域的智能對(duì)話機(jī)器人的專(zhuān)業(yè)詞匯糾錯(cuò)方法及系統(tǒng)。
背景技術(shù)
在諸多行業(yè)中都會(huì)用到客服,然而人工客服在很多方面有很多缺陷,相比之下,智能聊天機(jī)器人就有很多優(yōu)勢(shì),比如可以24小時(shí)全天候在線、反應(yīng)迅速,無(wú)需等待;由于數(shù)據(jù)的可存儲(chǔ)性,對(duì)于重復(fù)問(wèn)題,避免了多次重復(fù)性答復(fù)編輯;效率高成本低。然而在用戶與機(jī)器人交互的過(guò)程中,用戶往往會(huì)打錯(cuò)字,而且往往是垂直領(lǐng)域的專(zhuān)業(yè)詞匯,并且機(jī)器人對(duì)該詞匯非常敏感,直接影響到后續(xù)的意圖識(shí)別,最終影響其職能實(shí)現(xiàn)。對(duì)于專(zhuān)業(yè)詞匯的糾錯(cuò)可以提升智能對(duì)話機(jī)器人的效果,如答復(fù)針對(duì)性。而對(duì)于專(zhuān)業(yè)詞匯的糾錯(cuò)缺乏相應(yīng)的語(yǔ)料(通用詞匯的糾錯(cuò)具有相應(yīng)的語(yǔ)料),無(wú)法像通用糾錯(cuò)那樣采用語(yǔ)言模型(如N-Gram)進(jìn)行糾錯(cuò)。
同時(shí),目前對(duì)垂直領(lǐng)域中專(zhuān)業(yè)詞匯的校準(zhǔn)是以詞語(yǔ)為單位進(jìn)行校準(zhǔn),而并非以句子作為單位進(jìn)行校準(zhǔn),如在汽車(chē)領(lǐng)域,智能客服機(jī)器人對(duì)句子中的車(chē)牌車(chē)系詞匯進(jìn)行校準(zhǔn),識(shí)別詞匯“標(biāo)志”后將其轉(zhuǎn)換為車(chē)系詞匯“標(biāo)致”,這種情況由于未考慮詞語(yǔ)上下文情景,會(huì)導(dǎo)致不必要的轉(zhuǎn)換,如詢(xún)問(wèn)語(yǔ)句“這款車(chē)的標(biāo)志是啥樣的”中“標(biāo)志”是不需要轉(zhuǎn)換的。其他垂直領(lǐng)域如“電子數(shù)碼”、“運(yùn)動(dòng)品牌”、“飲食菜譜”等領(lǐng)域,同樣會(huì)出現(xiàn)由于單純識(shí)別詞語(yǔ)而導(dǎo)致的曲解語(yǔ)義的問(wèn)題。
基于上述問(wèn)題,亟需開(kāi)發(fā)一種專(zhuān)業(yè)詞匯糾錯(cuò)方法或系統(tǒng)以適用于垂直領(lǐng)域的糾錯(cuò),以對(duì)話中的句子為單位,準(zhǔn)確、快速、全面的對(duì)其中由于拼寫(xiě)錯(cuò)誤導(dǎo)致不能被智能對(duì)話機(jī)器人識(shí)別的專(zhuān)業(yè)詞匯進(jìn)行校準(zhǔn),利于智能對(duì)話機(jī)器人服務(wù)性能的提高。
發(fā)明內(nèi)容
為了克服上述問(wèn)題,本發(fā)明人進(jìn)行了銳意研究,提供了一種應(yīng)用于垂直領(lǐng)域的智能對(duì)話機(jī)器人的專(zhuān)業(yè)詞匯糾錯(cuò)方法及系統(tǒng),通過(guò)構(gòu)建混淆集,優(yōu)化混淆集,對(duì)用戶拼寫(xiě)的句子進(jìn)行分詞后加載優(yōu)化后的混淆集,采用混淆集對(duì)分詞后的每個(gè)詞語(yǔ)做遍歷,將錯(cuò)誤拼寫(xiě)的詞語(yǔ)進(jìn)行替換,獲得糾錯(cuò)后的句子。該方法針對(duì)垂直領(lǐng)域中句子為單位進(jìn)行專(zhuān)業(yè)詞匯糾錯(cuò),混淆集以專(zhuān)業(yè)詞匯為基礎(chǔ)進(jìn)行構(gòu)建,以準(zhǔn)確率、召回率和時(shí)效性為考量進(jìn)行優(yōu)化,再此前提下遍歷詞語(yǔ)實(shí)現(xiàn)糾錯(cuò),從而完成本發(fā)明。
本發(fā)明的目的在于提供以下技術(shù)方案:
(1)一種應(yīng)用于垂直領(lǐng)域的專(zhuān)業(yè)詞匯糾錯(cuò)方法,該方法包括以下步驟:
步驟100),構(gòu)建混淆集,所述混淆集包括拼寫(xiě)正確的專(zhuān)業(yè)詞匯和與專(zhuān)業(yè)詞匯對(duì)應(yīng)的易混淆詞;
步驟200),對(duì)用戶拼寫(xiě)輸入的句子進(jìn)行分詞處理;
步驟300),加載混淆集,對(duì)分詞處理后的每個(gè)詞語(yǔ)進(jìn)行混淆集遍歷,識(shí)別存在的易混淆詞,并替換為正確的專(zhuān)業(yè)詞匯,完成糾錯(cuò)。
(2)一種用于實(shí)現(xiàn)上述(1)所述方法的系統(tǒng),所述系統(tǒng)包括:
混淆集構(gòu)建模塊:用于構(gòu)建混淆集,所述混淆集中包括有拼寫(xiě)正確的專(zhuān)業(yè)詞匯和與專(zhuān)業(yè)詞匯對(duì)應(yīng)的易混淆詞;
分詞模塊:用于對(duì)用戶拼寫(xiě)輸入的句子進(jìn)行分詞處理;
糾錯(cuò)模塊,用于加載混淆集,對(duì)分詞處理后的每個(gè)詞語(yǔ)進(jìn)行混淆集遍歷,識(shí)別存在的易混淆詞,并替換為正確的專(zhuān)業(yè)詞匯,完成糾錯(cuò)。
根據(jù)本發(fā)明提供的一種應(yīng)用于垂直領(lǐng)域的智能對(duì)話機(jī)器人的專(zhuān)業(yè)詞匯糾錯(cuò)方法及系統(tǒng),具有以下有益效果:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鼎復(fù)數(shù)據(jù)科技(北京)有限公司,未經(jīng)鼎復(fù)數(shù)據(jù)科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810651482.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種智能的拼音輸入方法
- 具多重浮動(dòng)窗口的詞匯解說(shuō)系統(tǒng)及其方法
- 一種量化確定專(zhuān)業(yè)領(lǐng)域詞匯集最優(yōu)維度的方法
- 一種基于專(zhuān)家論文大數(shù)據(jù)的研究熱點(diǎn)分析方法
- 一種數(shù)據(jù)檢索方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種高速列車(chē)設(shè)計(jì)詞庫(kù)構(gòu)建方法及構(gòu)建系統(tǒng)
- 一種基于數(shù)據(jù)獲取技術(shù)的專(zhuān)業(yè)字典構(gòu)建方法
- 基于別名標(biāo)準(zhǔn)化的領(lǐng)域?qū)I(yè)詞匯詞嵌入向量訓(xùn)練方法、系統(tǒng)及介質(zhì)
- 一種基于人工智能的自動(dòng)語(yǔ)音識(shí)別方法及系統(tǒng)
- 基于Kaldi的專(zhuān)業(yè)詞匯語(yǔ)音識(shí)別方法
- 加密算法中的運(yùn)算符提升
- 包混淆和包轉(zhuǎn)發(fā)
- 一種Java代碼的混淆方法、恢復(fù)方法及其裝置
- 代碼混淆方法、系統(tǒng)、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 解混淆方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種自定義混淆方案的JavaScript代碼混淆方法
- 代碼混淆方法、裝置及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)反混淆方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種文本糾錯(cuò)方法及裝置
- 一種基于圖卷積網(wǎng)絡(luò)的函數(shù)級(jí)混淆檢測(cè)方法
- 一種個(gè)性化并行分詞處理系統(tǒng)及其處理方法
- 一種基于語(yǔ)境進(jìn)行分詞的方法和裝置
- 盲文文件生成方法及系統(tǒng)
- 中醫(yī)藥古籍文獻(xiàn)分詞和詞性標(biāo)引方法及系統(tǒng)
- 一種分詞處理方法和移動(dòng)終端
- 網(wǎng)絡(luò)發(fā)布數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種中文分詞方法及裝置
- 分詞處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本序列分詞方法、裝置及存儲(chǔ)介質(zhì)
- 語(yǔ)料數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





