[發(fā)明專利]基于主動(dòng)學(xué)習(xí)的語料挖掘方法、裝置及電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202011141662.2 | 申請(qǐng)日: | 2020-10-22 |
| 公開(公告)號(hào): | CN113407713A | 公開(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 習(xí)自;趙學(xué)敏 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36 |
| 代理公司: | 北京市立方律師事務(wù)所 11330 | 代理人: | 張?bào)銓?/td> |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 主動(dòng) 學(xué)習(xí) 語料 挖掘 方法 裝置 電子設(shè)備 | ||
本申請(qǐng)實(shí)施例提供了基于主動(dòng)學(xué)習(xí)的語料挖掘方法、裝置及電子設(shè)備,涉及人工智能領(lǐng)域。該方法包括:獲取未標(biāo)注語料;利用至少兩個(gè)預(yù)先訓(xùn)練好的語料分類模型對(duì)未標(biāo)注語料進(jìn)行分類,得到至少兩個(gè)語料分類模型輸出的、針對(duì)未標(biāo)注語料進(jìn)行分類的第一分類類型和分類分?jǐn)?shù);選取第一分類類型不一致、且分類分?jǐn)?shù)符合預(yù)設(shè)條件的未標(biāo)注語料作為待標(biāo)注語料,對(duì)待標(biāo)注語料進(jìn)行二次分類處理,得到待標(biāo)注語料的第二分類類型。本技術(shù)方案能夠有利于擴(kuò)寬語料挖掘的覆蓋面,提高語料挖掘的泛化性。
技術(shù)領(lǐng)域
本申請(qǐng)涉及人工智能領(lǐng)域,具體而言,本申請(qǐng)涉及一種基于主動(dòng)學(xué)習(xí)的語料挖掘方法、裝置及電子設(shè)備,還涉及一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著人們對(duì)生活質(zhì)量提出更高的要求,眾多的智能助手逐漸出現(xiàn)在我們的生活中,如騰訊的云小微智能助手等。用戶可以通過語音輸入、文本輸入等方式向智能助手詢問相關(guān)信息等。準(zhǔn)確理解用戶需求是智能助手提供服務(wù)的基本前提,為了提高智能助手的智能化水平,有時(shí)候需要對(duì)智能助手所涉及的技能進(jìn)行語料挖掘,以滿足不同場(chǎng)景不同用戶對(duì)智能助手發(fā)出的不同需求。
目前,語料挖掘方法主要有隨機(jī)挑選、根據(jù)關(guān)鍵詞進(jìn)行語料挖掘和基于邊緣概率的主動(dòng)學(xué)習(xí)算法的語料挖掘等。隨機(jī)挑選是指對(duì)未標(biāo)注語料集進(jìn)行隨機(jī)采樣,然后交由標(biāo)注人員標(biāo)注。根據(jù)關(guān)鍵詞進(jìn)行語料挖掘需要根據(jù)技能的設(shè)計(jì)幾個(gè)關(guān)鍵詞,然后從未標(biāo)注語料集中挖掘出包含這些關(guān)鍵詞的語料,然后再交由標(biāo)注人員標(biāo)注?;谶吘壐怕实闹鲃?dòng)學(xué)習(xí)算法需要初始化若干條啟動(dòng)語料,基于這些啟動(dòng)語料訓(xùn)練一個(gè)分類模型,然后用該分類模型對(duì)所有未標(biāo)注語料進(jìn)行預(yù)測(cè)得到未標(biāo)注語料的得分,最后選取得分介于閾值邊緣的語料交由標(biāo)注人員進(jìn)行標(biāo)注。
然而,上述語料挖掘方法存在著如下問題:隨機(jī)挑選的語料挖掘方法耗時(shí)耗力,效率極低;根據(jù)關(guān)鍵詞進(jìn)行語料挖掘雖然在一定程度上提高了碗蕨效率,但是嚴(yán)重依賴于關(guān)鍵詞的挑選,很容易導(dǎo)致語料分布出現(xiàn)傾斜現(xiàn)象,或者因?yàn)檫z漏某些冷門的語料挖掘不到;而對(duì)于基于邊緣概率的主動(dòng)學(xué)習(xí)算法的語料挖掘方法,又很容易挖掘出一些跟啟動(dòng)語料相似的語料,難以拓展語料挖掘所涉及的覆蓋面。
發(fā)明內(nèi)容
本申請(qǐng)的目的旨在至少能解決上述的技術(shù)缺陷之一,特別是語料挖掘效率低、難以擴(kuò)展語料挖掘結(jié)果所涉及的覆蓋面的技術(shù)缺陷。
第一方面,提供了一種基于主動(dòng)學(xué)習(xí)的語料挖掘方法,包括:
獲取未標(biāo)注語料;
利用至少兩個(gè)預(yù)先訓(xùn)練好的語料分類模型對(duì)未標(biāo)注語料進(jìn)行分類,得到至少兩個(gè)語料分類模型輸出的、針對(duì)未標(biāo)注語料進(jìn)行分類的第一分類類型和分類分?jǐn)?shù);
選取第一分類類型不一致、且分類分?jǐn)?shù)符合預(yù)設(shè)條件的未標(biāo)注語料作為待標(biāo)注語料,對(duì)待標(biāo)注語料進(jìn)行二次分類處理,得到待標(biāo)注語料的第二分類類型。
在一種可能的實(shí)現(xiàn)方式中,基于主動(dòng)學(xué)習(xí)的語料挖掘方法還包括:
基于預(yù)先配置的、作為訓(xùn)練樣本的冷啟動(dòng)語料對(duì)至少兩個(gè)分類器進(jìn)行訓(xùn)練,得到至少兩個(gè)語料分類模型。
在一種可能的實(shí)現(xiàn)方式中,基于預(yù)先配置的作為訓(xùn)練樣本的冷啟動(dòng)語料對(duì)至少兩個(gè)分類器進(jìn)行訓(xùn)練,得到至少兩個(gè)語料分類模型的步驟包括:
獲取預(yù)先配置的、作為訓(xùn)練樣本的冷啟動(dòng)語料;
抽取冷啟動(dòng)語料的N-gram文本特征,并對(duì)N-gram文本特征進(jìn)行篩選生成冷啟動(dòng)語料的N-gram字典;其中,N為正整數(shù),大于等于1;
記錄N-gram文本特征在N-gram字典中對(duì)應(yīng)的位置作為冷啟動(dòng)語料的特征表達(dá);
基于特征表達(dá)采用可擴(kuò)展機(jī)器學(xué)習(xí)庫分別對(duì)至少兩個(gè)分類器進(jìn)行訓(xùn)練,得到至少兩個(gè)語料分類模型。
在一種可能的實(shí)現(xiàn)方式中,對(duì)N-gram文本特征進(jìn)行篩選生成冷啟動(dòng)語料的N-gram字典的步驟包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141662.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 主動(dòng)元件及主動(dòng)元件陣列基板
- 主動(dòng)降噪系統(tǒng)、主動(dòng)降噪耳機(jī)及主動(dòng)降噪方法
- 主動(dòng)定位方法及主動(dòng)定位系統(tǒng)
- 主動(dòng)降噪系統(tǒng)及主動(dòng)降噪耳機(jī)
- 主動(dòng)清除系統(tǒng)和主動(dòng)清除方法
- 主動(dòng)筆控制方法及主動(dòng)筆
- 筆尖、主動(dòng)筆和主動(dòng)筆系統(tǒng)
- 主動(dòng)降噪耳機(jī)和主動(dòng)降噪方法
- 主動(dòng)導(dǎo)管及主動(dòng)導(dǎo)管系統(tǒng)
- 主動(dòng)降噪算法及主動(dòng)降噪耳機(jī)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備





