[發明專利]一種對垃圾分類問題的訓練方法及訓練裝置在審
| 申請號: | 201910798125.6 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN110516058A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 郭建廷;岳聰;雷欣;李志飛 | 申請(專利權)人: | 出門問問(武漢)信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35;G06F17/27 |
| 代理公司: | 11734 北京樂知新創知識產權代理事務所(普通合伙) | 代理人: | 江宇<國際申請>=<國際公布>=<進入國 |
| 地址: | 430223 湖北省武漢市東湖新技術*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾分類 訓練樣本數據 二分類 模型訓練 問答系統 問題模板 訓練樣本 算法 歷史數據 訓練裝置 準確率 | ||
1.一種對垃圾分類問題的訓練方法,其特征在于,包括:
基于垃圾分類表及垃圾分類問題模板,生成一系列垃圾分類問題;
從問答系統的歷史數據中獲取非垃圾分類問題;
分別將所述垃圾分類問題和非垃圾分類問題作為正例訓練樣本和負例訓練樣本,得到訓練樣本數據;
利用算法對所述訓練樣本數據進行模型訓練,得到二分類模型。
2.根據權利要求1所述的訓練方法,其特征在于,所述訓練方法還包括:
獲取預垃圾分類問題;
利用所述二分類模型對所述預垃圾分類問題進行測試訓練,得到測試訓練結果;
若所述測試訓練結果表征所述預垃圾分類問題通過測試,則確定所述預垃圾分類問題為準垃圾分類問題。
3.根據權利要求2所述的訓練方法,其特征在于,所述獲取預垃圾分類問題,包括:
獲取待訓練分類問題;
對所述待訓練分類問題的字數進行檢測,得到第二檢測結果;
若所述第二檢測結果表征所述待訓練分類問題的字數已達到或超過預設字數閾值,則確定所述待訓練分類問題為預垃圾分類問題。
4.根據權利要求1所述的訓練方法,其特征在于,所述利用算法對所述訓練樣本數據進行模型訓練之前,還包括:
檢測所述訓練樣本數據的長度,得到第一檢測結果;
若所述第一檢測結果表征所述訓練樣本數據的長度沒有達到預設固定長度,則利用設定好的占位符填充所述訓練樣本數據的空缺字位。
5.根據權利要求1-4任一項所述的訓練方法,其特征在于,還包括:
對生成的一系列垃圾分類問題進行主語標記;
利用CRF算法對所有具有主語標記的垃圾分類問題進行模型訓練,得到識別主語模型。
6.根據權利要求5所述的訓練方法,其特征在于,在確定所述預垃圾分類問題為準垃圾分類問題的條件下,還包括:
利用所述識別主語模型對所述準垃圾分類問題進行主語識別,得到所述準垃圾分類問題的主語。
7.一種對垃圾分類問題的訓練裝置,其特征在于,包括:
生成模塊,用于基于垃圾分類表及垃圾分類問題模板,生成一系列垃圾分類問題;
獲取模塊,用于從問答系統的歷史數據中獲取非垃圾分類問題;
樣本模塊,用于分別將所述垃圾分類問題和非垃圾分類問題作為正例訓練樣本和負例訓練樣本;
訓練模塊,用于利用所述訓練樣本數據進行算法訓練,得到二分類模型。
8.根據權利要求7所述的訓練裝置,其特征在于,所述訓練裝置還包括:
獲取模塊,還用于選取預垃圾分類問題;
測試模塊,用于利用所述二分類模型對所述預垃圾分類問題進行測試訓練,得測試訓練結果;
確定模塊,用于若所述測試訓練結果表征所述預垃圾分類問題通過了測試,則確定所述預垃圾分類問題為準垃圾分類問題。
9.一種電子設備,其特征在于,包括:一個或多個處理器;存儲裝器,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-6中任一項所述的訓練方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1-6任一項所述的訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于出門問問(武漢)信息科技有限公司,未經出門問問(武漢)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910798125.6/1.html,轉載請聲明來源鉆瓜專利網。





