[發(fā)明專利]基于主動(dòng)學(xué)習(xí)的語料挖掘方法、裝置及電子設(shè)備在審

申請(qǐng)?zhí)枺?/td>	202011141662.2	申請(qǐng)日：	2020-10-22
公開（公告）號(hào)：	CN113407713A	公開（公告）日：	2021-09-17
發(fā)明（設(shè)計(jì)）人：	習(xí)自;趙學(xué)敏	申請(qǐng)（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號(hào)：	G06F16/35	分類號(hào)：	G06F16/35;G06F16/36
代理公司：	北京市立方律師事務(wù)所 11330	代理人：	張?bào)銓?/td>
地址：	518000 廣東省深圳***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于主動(dòng) 學(xué)習(xí) 語料挖掘方法裝置電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請(qǐng)實(shí)施例提供了基于主動(dòng)學(xué)習(xí)的語料挖掘方法、裝置及電子設(shè)備，涉及人工智能領(lǐng)域。該方法包括：獲取未標(biāo)注語料；利用至少兩個(gè)預(yù)先訓(xùn)練好的語料分類模型對(duì)未標(biāo)注語料進(jìn)行分類，得到至少兩個(gè)語料分類模型輸出的、針對(duì)未標(biāo)注語料進(jìn)行分類的第一分類類型和分類分?jǐn)?shù)；選取第一分類類型不一致、且分類分?jǐn)?shù)符合預(yù)設(shè)條件的未標(biāo)注語料作為待標(biāo)注語料，對(duì)待標(biāo)注語料進(jìn)行二次分類處理，得到待標(biāo)注語料的第二分類類型。本技術(shù)方案能夠有利于擴(kuò)寬語料挖掘的覆蓋面，提高語料挖掘的泛化性。

技術(shù)領(lǐng)域

本申請(qǐng)涉及人工智能領(lǐng)域，具體而言，本申請(qǐng)涉及一種基于主動(dòng)學(xué)習(xí)的語料挖掘方法、裝置及電子設(shè)備，還涉及一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

背景技術(shù)

隨著人們對(duì)生活質(zhì)量提出更高的要求，眾多的智能助手逐漸出現(xiàn)在我們的生活中，如騰訊的云小微智能助手等。用戶可以通過語音輸入、文本輸入等方式向智能助手詢問相關(guān)信息等。準(zhǔn)確理解用戶需求是智能助手提供服務(wù)的基本前提，為了提高智能助手的智能化水平，有時(shí)候需要對(duì)智能助手所涉及的技能進(jìn)行語料挖掘，以滿足不同場(chǎng)景不同用戶對(duì)智能助手發(fā)出的不同需求。

目前，語料挖掘方法主要有隨機(jī)挑選、根據(jù)關(guān)鍵詞進(jìn)行語料挖掘和基于邊緣概率的主動(dòng)學(xué)習(xí)算法的語料挖掘等。隨機(jī)挑選是指對(duì)未標(biāo)注語料集進(jìn)行隨機(jī)采樣，然后交由標(biāo)注人員標(biāo)注。根據(jù)關(guān)鍵詞進(jìn)行語料挖掘需要根據(jù)技能的設(shè)計(jì)幾個(gè)關(guān)鍵詞，然后從未標(biāo)注語料集中挖掘出包含這些關(guān)鍵詞的語料，然后再交由標(biāo)注人員標(biāo)注?；谶吘壐怕实闹鲃?dòng)學(xué)習(xí)算法需要初始化若干條啟動(dòng)語料，基于這些啟動(dòng)語料訓(xùn)練一個(gè)分類模型，然后用該分類模型對(duì)所有未標(biāo)注語料進(jìn)行預(yù)測(cè)得到未標(biāo)注語料的得分，最后選取得分介于閾值邊緣的語料交由標(biāo)注人員進(jìn)行標(biāo)注。

然而，上述語料挖掘方法存在著如下問題：隨機(jī)挑選的語料挖掘方法耗時(shí)耗力，效率極低；根據(jù)關(guān)鍵詞進(jìn)行語料挖掘雖然在一定程度上提高了碗蕨效率，但是嚴(yán)重依賴于關(guān)鍵詞的挑選，很容易導(dǎo)致語料分布出現(xiàn)傾斜現(xiàn)象，或者因?yàn)檫z漏某些冷門的語料挖掘不到；而對(duì)于基于邊緣概率的主動(dòng)學(xué)習(xí)算法的語料挖掘方法，又很容易挖掘出一些跟啟動(dòng)語料相似的語料，難以拓展語料挖掘所涉及的覆蓋面。

發(fā)明內(nèi)容

本申請(qǐng)的目的旨在至少能解決上述的技術(shù)缺陷之一，特別是語料挖掘效率低、難以擴(kuò)展語料挖掘結(jié)果所涉及的覆蓋面的技術(shù)缺陷。

第一方面，提供了一種基于主動(dòng)學(xué)習(xí)的語料挖掘方法，包括：

獲取未標(biāo)注語料；

利用至少兩個(gè)預(yù)先訓(xùn)練好的語料分類模型對(duì)未標(biāo)注語料進(jìn)行分類，得到至少兩個(gè)語料分類模型輸出的、針對(duì)未標(biāo)注語料進(jìn)行分類的第一分類類型和分類分?jǐn)?shù)；

選取第一分類類型不一致、且分類分?jǐn)?shù)符合預(yù)設(shè)條件的未標(biāo)注語料作為待標(biāo)注語料，對(duì)待標(biāo)注語料進(jìn)行二次分類處理，得到待標(biāo)注語料的第二分類類型。

在一種可能的實(shí)現(xiàn)方式中，基于主動(dòng)學(xué)習(xí)的語料挖掘方法還包括：

基于預(yù)先配置的、作為訓(xùn)練樣本的冷啟動(dòng)語料對(duì)至少兩個(gè)分類器進(jìn)行訓(xùn)練，得到至少兩個(gè)語料分類模型。

在一種可能的實(shí)現(xiàn)方式中，基于預(yù)先配置的作為訓(xùn)練樣本的冷啟動(dòng)語料對(duì)至少兩個(gè)分類器進(jìn)行訓(xùn)練，得到至少兩個(gè)語料分類模型的步驟包括：

獲取預(yù)先配置的、作為訓(xùn)練樣本的冷啟動(dòng)語料；

抽取冷啟動(dòng)語料的N-gram文本特征，并對(duì)N-gram文本特征進(jìn)行篩選生成冷啟動(dòng)語料的N-gram字典；其中，N為正整數(shù)，大于等于1；

記錄N-gram文本特征在N-gram字典中對(duì)應(yīng)的位置作為冷啟動(dòng)語料的特征表達(dá)；

基于特征表達(dá)采用可擴(kuò)展機(jī)器學(xué)習(xí)庫分別對(duì)至少兩個(gè)分類器進(jìn)行訓(xùn)練，得到至少兩個(gè)語料分類模型。

在一種可能的實(shí)現(xiàn)方式中，對(duì)N-gram文本特征進(jìn)行篩選生成冷啟動(dòng)語料的N-gram字典的步驟包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011141662.2/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】