[發(fā)明專利]一種聊天語料自清洗方法、裝置和用戶終端有效
| 申請?zhí)枺?/td> | 201810053728.9 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108170853B | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設(shè)計)人: | 姚佳 | 申請(專利權(quán))人: | 廣東惠禾科技發(fā)展有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/289 |
| 代理公司: | 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11371 | 代理人: | 陳曉云 |
| 地址: | 518000 廣東省深圳市南山區(qū)粵海*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 聊天 語料 清洗 方法 裝置 用戶 終端 | ||
本發(fā)明提供了一種聊天語料自清洗方法、裝置和用戶終端,其中所述方法包括:根據(jù)問答對語料的詞單元及其詞向量構(gòu)建神經(jīng)網(wǎng)絡(luò)模型;根據(jù)所述神經(jīng)網(wǎng)絡(luò)模型對所述問答對語料進(jìn)行評估預(yù)測,得到預(yù)測評估結(jié)果;根據(jù)所述預(yù)測評估結(jié)果對所述問答對語料進(jìn)行語料清洗,得到目標(biāo)對話語料。本發(fā)明所提供方法實(shí)現(xiàn)人機(jī)交互過程中,對聊天語料的非人工的智能自清洗,可通過語料智能自清洗對海量語料進(jìn)行篩選,語料清洗效率高、速度快,省去了大量人工參與進(jìn)行語料篩選清洗的步驟,大大降低了開發(fā)成本,為人工智能開發(fā)人員的工作帶來了極大的方便。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,更具體地說,涉及一種聊天語料自清洗方法、裝置和用戶終端。
背景技術(shù)
在現(xiàn)有機(jī)器人人工智能交互中,聊天(閑聊)依然占據(jù)著重要的位置。而工業(yè)界中聊天的主流技術(shù)依然是通過構(gòu)建高質(zhì)量的聊天語料(即問答對),通過類檢索的方式來匹配用戶的閑聊語句。
但是高質(zhì)量的聊天語料的獲取依然是很困難的。而業(yè)界的做法大抵是通過網(wǎng)絡(luò)爬取(如微博、BBS等),獲取一定質(zhì)量的問答對。但是這種爬取下來的數(shù)據(jù)難以直接應(yīng)用上線,只能通過語料清洗后才可進(jìn)行使用。
目前,聊天問答對的清洗主要為通過人工標(biāo)注大量的問答對,進(jìn)而通過有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行分類使用;或者完全人工逐條篩選實(shí)現(xiàn)人工語料清洗。總之,現(xiàn)有的語料清洗方法均需要有大量的人工參與,無法實(shí)現(xiàn)智能自清洗,并且由于待清洗的語料規(guī)模龐大,所涉及到的人工標(biāo)注工作量隨之增大,語料清洗效率低,耗時長,成本高,為人工智能開發(fā)人員的工作帶來極大的不便。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種聊天語料自清洗方法、裝置和用戶終端以解決現(xiàn)有技術(shù)的不足。
為解決上述問題,本發(fā)明提供一種聊天語料自清洗方法,包括:
根據(jù)問答對語料的詞單元及其詞向量構(gòu)建神經(jīng)網(wǎng)絡(luò)模型;
根據(jù)所述神經(jīng)網(wǎng)絡(luò)模型對所述問答對語料進(jìn)行評估預(yù)測,得到預(yù)測評估結(jié)果;
根據(jù)所述預(yù)測評估結(jié)果對所述問答對語料進(jìn)行語料清洗,得到目標(biāo)對話語料。
優(yōu)選地,所述“根據(jù)問答對語料的詞單元及其詞向量構(gòu)建神經(jīng)網(wǎng)絡(luò)模型”包括:
對所述問答對語料中的每個問語料和答語料設(shè)置第一語料標(biāo)簽;
抽取所述問答對語料中的所述問語料和所述答語料進(jìn)行隨機(jī)對應(yīng),并設(shè)置第二語料標(biāo)簽;
對隨機(jī)對應(yīng)的所述問答對語料中的所述問語料和所述答語料進(jìn)行分詞處理,并構(gòu)建詞單元向量化矩陣;
根據(jù)所述詞單元向量化矩陣得到隨機(jī)對應(yīng)的所述問語料和所述答語料的匹配值;
基于所述詞單元向量化矩陣,根據(jù)所述第一語料標(biāo)簽和所述第二語料標(biāo)簽對所述匹配值進(jìn)行參數(shù)學(xué)習(xí),構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。
優(yōu)選地,所述“根據(jù)所述詞單元向量化矩陣得到隨機(jī)對應(yīng)的所述問語料和所述答語料的匹配值”包括:
基于所述詞單元向量化矩陣,獲取所述問語料和所述答語料中的每個詞單元的詞向量;
構(gòu)建隨機(jī)問答對矩陣,并基于所述隨機(jī)問答對矩陣對所述詞向量計算得出所述問語料和所述答語料的匹配值。
優(yōu)選地,所述“構(gòu)建隨機(jī)問答對矩陣,并基于所述隨機(jī)問答對矩陣對所述詞向量計算得出所述問語料和所述答語料的匹配值”包括:
對所述問語料中每個所述詞單元的所述詞向量進(jìn)行求和平均,得到問語料向量均值;對所述答語料中每個所述詞單元的所述詞向量進(jìn)行求和平均,得到答語料向量均值;
構(gòu)建隨機(jī)問答對矩陣;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東惠禾科技發(fā)展有限公司,未經(jīng)廣東惠禾科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810053728.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





