[發(fā)明專利]文本類別檢測方法、裝置、電子設(shè)備和計算機(jī)可讀介質(zhì)有效
| 申請?zhí)枺?/td> | 201910636000.3 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110489521B | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 萬峻辰 | 申請(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 類別 檢測 方法 裝置 電子設(shè)備 計算機(jī) 可讀 介質(zhì) | ||
本申請實施例公開了文本類別檢測方法、裝置、電子設(shè)備和計算機(jī)可讀介質(zhì)。該方法的實施例包括:獲取樣本集,其中,樣本集中包括多個文本樣本和各文本樣本的類別標(biāo)識;獲取預(yù)訓(xùn)練后的BERT模型,其中,BERT模型包含多層transformer結(jié)構(gòu);刪減BERT模型中的部分transformer結(jié)構(gòu),生成目標(biāo)語言模型;基于樣本集中的文本樣本和類別標(biāo)識,對目標(biāo)語言模型進(jìn)行訓(xùn)練,生成文本類別檢測模型。該實施方式提供了一種用于進(jìn)行文本類別檢測的模型,利用該模型進(jìn)行文本類別檢測,可提高類別檢測結(jié)果的準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請實施例涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及文本類別檢測方法、裝置、電子設(shè)備和計算機(jī)可讀介質(zhì)。
背景技術(shù)
自然語言處理(Natural Language Processing,NLP)是人工智能的一個子領(lǐng)域,目標(biāo)是讓計算機(jī)處理或理解自然語言,以執(zhí)行語言翻譯和問題回答等任務(wù)。在自然語言處理領(lǐng)域中,文本分類是一項重要任務(wù),可以應(yīng)用于多種場景。例如,在搜索場景下,通過對用戶輸入的搜索文本進(jìn)行處理,可以確定出能夠表征用戶的搜索意圖的文本類別(例如餐飲類、酒店類等),從而返回屬于該類別的信息。
通常,在自然語言處理領(lǐng)域,可以采用文檔主題生成模型(Latent DirichletAllocation,LDA)、支持向量機(jī)(Support Vector Machine,SVM)、深度神經(jīng)網(wǎng)絡(luò)(DeepNeural Network,DNN)、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等模型進(jìn)行任務(wù)處理。然而,在文本類別檢測任務(wù)中,尤其在對搜索文本的類別檢測任務(wù)中,當(dāng)文本較短或存在長尾詞時,這些模型經(jīng)常無法準(zhǔn)確識別出文本的意圖,導(dǎo)致文本的類別檢測結(jié)果的準(zhǔn)確性較低。
發(fā)明內(nèi)容
本申請實施例提出了文本類別檢測方法、裝置、電子設(shè)備和計算機(jī)可讀介質(zhì),用以提高文本的類別檢測結(jié)果的準(zhǔn)確性。
第一方面,本申請實施例提供了一種文本類別檢測方法,該方法包括:獲取樣本集,其中,樣本集中包括多個文本樣本和各文本樣本的類別標(biāo)識;獲取預(yù)訓(xùn)練后的、基于transformer結(jié)構(gòu)的雙向編碼器表征BERT模型,其中,BERT模型包含多層transformer結(jié)構(gòu);刪減BERT模型中的部分transformer結(jié)構(gòu),生成目標(biāo)語言模型;基于樣本集中的文本樣本和類別標(biāo)識,對目標(biāo)語言模型進(jìn)行訓(xùn)練,生成文本類別檢測模型;利用文本類別檢測模型進(jìn)行文本類別檢測。
第二方面,本申請實施例提供了一種文本類別檢測裝置,該裝置包括:第一獲取單元,被配置成獲取樣本集,其中,樣本集中包括多個文本樣本和各文本樣本的類別標(biāo)識;第二獲取單元,被配置成獲取預(yù)訓(xùn)練后的、基于transformer結(jié)構(gòu)的雙向編碼器表征BERT模型,其中,BERT模型包含多層transformer結(jié)構(gòu);生成單元,被配置成刪減BERT模型中的部分transformer結(jié)構(gòu),生成目標(biāo)語言模型;訓(xùn)練單元,被配置成基于樣本集中的文本樣本和類別標(biāo)識,利用機(jī)器學(xué)習(xí)方法對目標(biāo)語言模型進(jìn)行訓(xùn)練,生成文本類別檢測模型;檢測單元,被配置成利用文本類別檢測模型進(jìn)行文本類別檢測。
第三方面,本申請實施例提供了一種電子設(shè)備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個程序,當(dāng)一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)文本類別檢測方法。
第四方面,本申請實施例提供了一種計算機(jī)可讀介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)文本類別檢測方法
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910636000.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





