[發明專利]一種對垃圾分類問題的訓練方法及訓練裝置在審
| 申請號: | 201910798125.6 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN110516058A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 郭建廷;岳聰;雷欣;李志飛 | 申請(專利權)人: | 出門問問(武漢)信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35;G06F17/27 |
| 代理公司: | 11734 北京樂知新創知識產權代理事務所(普通合伙) | 代理人: | 江宇<國際申請>=<國際公布>=<進入國 |
| 地址: | 430223 湖北省武漢市東湖新技術*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾分類 訓練樣本數據 二分類 模型訓練 問答系統 問題模板 訓練樣本 算法 歷史數據 訓練裝置 準確率 | ||
本發明公開了一種對垃圾分類問題的訓練方法及訓練裝置。該訓練方法的一具體實施方式包括:基于垃圾分類表及垃圾分類問題模板,生成一系列垃圾分類問題;從問答系統的歷史數據中獲取非垃圾分類問題;分別將垃圾分類問題和非垃圾分類問題作為正例訓練樣本和負例訓練樣本,得到訓練樣本數據;利用算法對訓練樣本數據進行模型訓練,得到二分類模型。通過由垃圾分類表和垃圾分類問題模板生成的垃圾分類問題以及從問答系統中獲取的非垃圾分類問題作為訓練樣本數據,并利用算法對訓練樣本數據進行模型訓練來獲得二分類模型;從而能夠實現利用二分類模型對任何預垃圾分類問題進行準確識別,并且其準確率可以達到99%以上。
技術領域
本發明涉及智能技術領域,尤其涉及一種對垃圾分類問題的訓練方法及訓練裝置。
背景技術
現有的語言自動問答系統中,大多是采用簡單的模式匹配技術實現的,其方法是從句子的第一個詞開始,對用戶輸入的句子和知識庫中的句子進行匹配,如果兩個詞相同就繼續下一個詞的匹配,中間可能利用任意詞通配符來忽略掉用戶輸入的句子中存在的一些不太關鍵的詞,重復這一過程直到整個用戶輸入的句子匹配完畢,如果匹配成功就將知識庫中的句子所對應的應答返回給用戶。但是相對于外文而言,中文具有用詞靈活、句法復雜多變的特點,并不適合簡單的模式匹配技術。現有的中文自動問答系統是參考了國外一些英文的自動問答系統,采用簡單的模式匹配技術實現的。
下面舉例說明采用簡單的模式匹配技術實現的中文自動問答系統的缺點。
假設自動問答系統的知識庫中存在以下兩組問答語句對,每組都包括一個用戶輸入的自然語言句子(以下簡稱用戶句子)和系統應答。
第一組:
用戶句子:你出生在深圳嗎?
系統應答:是啊,你怎么知道的?
第二組:
用戶句子:你出生在北京嗎?
系統應答:不對,我出生在深圳。
當用戶輸入“你出生在深圳嗎?”或是“你出生在北京嗎?”的時候,應答都是正確的。但是當用戶輸入“你出生在上海嗎?”,自動問答系統就無法找到匹配的用戶句子,從而返回了錯誤的應答(可能是系統缺省的應答)。但是實際上,第二組中的系統應答才是用戶輸入的正確應答。
因為可以替換“上海”的詞非常多,所以上述問題也無法通過增加更多的問答語句對來解決。另外,將“北京”替換為任意詞通配符也不可行,因為用戶可能會輸入“你出生在76年嗎?”,同樣會匹配成功,導致應答出錯。
綜上所述,簡單的模式匹配技術并不適合中文自動問答系統,導致中文知識庫的覆蓋面窄,系統的準確率和招回率都很低,會對用戶體驗造成傷害。而且發明人在長期研究過程中發現,我們現有的問答系統中,還不能準確回答垃圾分類問題。
發明內容
有鑒于此,本發明實施例提供一種對垃圾分類問題的訓練方法及訓練裝置,能夠有效的得到二分類模型,并利用二分類模型對任何預垃圾分類問題進行準確識別,其準確率可以達到99%以上。
為實現上述目的,根據本發明實施例第一方面,提供一種對垃圾分類問題的訓練方法,該訓練方法包括:基于垃圾分類表和垃圾分類問題模板,生成一系列垃圾分類問題;從問答系統的歷史數據中獲取非垃圾分類問題;分別將所述垃圾分類問題和非垃圾分類問題作為正例訓練樣本和負例訓練樣本,得到訓練樣本數據;利用算法對所述訓練樣本數據進行模型訓練,得到二分類模型。
可選的,所述訓練方法還包括:獲取預垃圾分類問題;利用所述二分類模型對所述預垃圾分類問題進行測試訓練,得到測試訓練結果;若所述測試訓練結果表征所述預垃圾分類問題通過了測試,則確定所述預垃圾分類問題為準垃圾分類問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于出門問問(武漢)信息科技有限公司,未經出門問問(武漢)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910798125.6/2.html,轉載請聲明來源鉆瓜專利網。





