[發明專利]基于主動學習的語料挖掘方法、裝置及電子設備在審
| 申請號: | 202011141662.2 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN113407713A | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 習自;趙學敏 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主動 學習 語料 挖掘 方法 裝置 電子設備 | ||
1.一種基于主動學習的語料挖掘方法,其特征在于,包括:
獲取未標注語料;
利用至少兩個預先訓練好的語料分類模型對所述未標注語料進行分類,得到至少兩個所述語料分類模型輸出的、針對所述未標注語料進行分類的第一分類類型和分類分數;
選取所述第一分類類型不一致、且所述分類分數符合預設條件的未標注語料作為待標注語料,對所述待標注語料進行二次分類處理,得到所述待標注語料的第二分類類型。
2.根據權利要求1所述的基于主動學習的語料挖掘方法,其特征在于,還包括:
基于預先配置的、作為訓練樣本的冷啟動語料對至少兩個分類器進行訓練,得到至少兩個語料分類模型。
3.根據權利要求2所述的基于主動學習的語料挖掘方法,其特征在于,所述基于預先配置的作為訓練樣本的冷啟動語料對至少兩個分類器進行訓練,得到至少兩個語料分類模型的步驟包括:
獲取預先配置的、作為訓練樣本的冷啟動語料;
抽取所述冷啟動語料的N-gram文本特征,并對所述N-gram文本特征進行篩選生成所述冷啟動語料的N-gram字典;其中,N為正整數,大于等于1;
記錄所述N-gram文本特征在所述N-gram字典中對應的位置作為所述冷啟動語料的特征表達;
基于所述特征表達采用可擴展機器學習庫分別對至少兩個分類器進行訓練,得到至少兩個語料分類模型。
4.根據權利要求3所述的基于主動學習的語料挖掘方法,其特征在于,所述對所述N-gram文本特征進行篩選生成所述冷啟動語料的N-gram字典的步驟包括:
統計所述冷啟動語料的N-gram文本特征的出現頻次;
篩選出所述出現頻次在預設頻次范圍內的N-gram文本特征,得到所述冷啟動語料的N-gram字典。
5.根據權利要求3所述的基于主動學習的語料挖掘方法,其特征在于,所述抽取所述冷啟動語料的N-gram文本特征的步驟包括:
基于預先添加到所述冷啟動語料的開頭位置和結尾位置的開始標識符號和結束標識符號,根據預設字節片段長度N逐段抽取得到所述冷啟動語料的N-gram文本特征。
6.根據權利要求1所述的基于主動學習的語料挖掘方法,其特征在于,所述利用至少兩個預先訓練好的語料分類模型對所述未標注語料進行分類,得到至少兩個所述語料分類模型輸出的第一分類類型和分類分數的步驟包括:
抽取所述未標注語料的N-gram文本特征,并對所述未標注語料的N-gram文本特征進行特征向量化,得到所述未標注語料的特征向量;
根據所述未標注語料的特征向量利用至少兩個所述語料分類模型對未標注語料進行分類,得到至少兩個所述語料分類模型輸出的、針對所述未標注語料進行分類的第一分類類型和分類分數。
7.根據權利要求1所述的基于主動學習的語料挖掘方法,其特征在于,所述選取所述第一分類類型不一致、且所述分類分數符合預設條件的未標注語料作為待標注語料的步驟包括:
對選取出來的第一分類類型不一致的未標注語料的分類分數進行相加,計算得到選取出來的所述未標注語料的總分數,依據所述總分數對選取出來的所述未標注語料進行降序排序;
根據降序排序結果,獲取排序靠前的若干個所述未標注語料作為待標注語料。
8.根據權利要求1所述的基于主動學習的語料挖掘方法,其特征在于,所述對所述待標注語料進行二次分類處理,得到所述待標注語料的第二分類類型的步驟包括:
按照所述待標注語料的屬性進行二次分類標注,得到新標注語料;
將二次分類標注的結果作為所述新標注語料的第二分類類型。
9.根據權利要求8所述的基于主動學習的語料挖掘方法,其特征在于,所述確定所述待標注語料的第二分類類型的步驟之后,還包括:
將所述新標注語料與所述冷啟動語料作為新的訓練樣本,輸入到至少兩個分類器中,返回執行對至少兩個分類器進行訓練,得到至少兩個語料分類模型的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-9任一項所述的基于主動學習的語料挖掘方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141662.2/1.html,轉載請聲明來源鉆瓜專利網。





