[發(fā)明專利]一種文本分類模型構(gòu)建方法、文本分類方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011228040.3 | 申請(qǐng)日: | 2020-11-05 |
| 公開(公告)號(hào): | CN112182229A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計(jì))人: | 肖剛 | 申請(qǐng)(專利權(quán))人: | 江西高創(chuàng)保安服務(wù)技術(shù)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36;G06F40/30 |
| 代理公司: | 北京三聚陽光知識(shí)產(chǎn)權(quán)代理有限公司 11250 | 代理人: | 李博洋 |
| 地址: | 330029 江西省南昌市高新區(qū)*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 模型 構(gòu)建 方法 裝置 | ||
本發(fā)明公開了一種文本分類模型構(gòu)建方法、文本分類方法及裝置,其中,文本分類模型構(gòu)建方法包括:獲取訓(xùn)練文本數(shù)據(jù)以及對(duì)應(yīng)訓(xùn)練文本數(shù)據(jù)所屬領(lǐng)域的多個(gè)預(yù)設(shè)標(biāo)簽屬性信息;將訓(xùn)練文本數(shù)據(jù)以及多個(gè)預(yù)設(shè)標(biāo)簽屬性信息輸入到閱讀理解模型,得到每一個(gè)訓(xùn)練文本數(shù)據(jù)與每一個(gè)預(yù)設(shè)標(biāo)簽屬性信息之間的文本交互表示;將每一個(gè)文本交互表示輸入到特征提取模型,得到文本關(guān)鍵特征;將文本關(guān)鍵特征輸入到初始分類模型進(jìn)行分類識(shí)別,得到每一個(gè)訓(xùn)練文本數(shù)據(jù)隸屬于每一個(gè)預(yù)設(shè)標(biāo)簽屬性信息的概率值,根據(jù)概率值,得到分類結(jié)果;根據(jù)分類結(jié)果訓(xùn)練初始分類模型的模型參數(shù),直至初始分類模型的損失函數(shù)值滿足目標(biāo)條件,得到目標(biāo)文本分類模型。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種文本分類模型構(gòu)建方法、文本分類方法及裝置。
背景技術(shù)
文本分類是指用電腦對(duì)文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。相關(guān)技術(shù)中,對(duì)文本進(jìn)行分類時(shí)通常根據(jù)文本分類模型提取文本的語義特征進(jìn)行分類,但是這種方法需要大量的訓(xùn)練樣本、且不同文本標(biāo)簽類別對(duì)應(yīng)的文本數(shù)據(jù)又不平衡,導(dǎo)致模型的泛化能力差,故亟待提出一種文本分類模型構(gòu)建方法以減少訓(xùn)練樣本、提高模型泛化能力。
發(fā)明內(nèi)容
因此,本發(fā)明要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)中根據(jù)文本分類模型提取文本的語義特征進(jìn)行分類對(duì)文本進(jìn)行分類泛化能力差的缺陷,從而提供一種文本分類模型構(gòu)建方法、文本分類方法及裝置。
根據(jù)第一方面,本發(fā)明實(shí)施例公開了一種文本分類模型構(gòu)建方法,包括如下步驟:獲取訓(xùn)練文本數(shù)據(jù)以及對(duì)應(yīng)所述訓(xùn)練文本數(shù)據(jù)所屬領(lǐng)域的多個(gè)預(yù)設(shè)標(biāo)簽屬性信息;將所述訓(xùn)練文本數(shù)據(jù)以及多個(gè)預(yù)設(shè)標(biāo)簽屬性信息輸入到閱讀理解模型,得到每一個(gè)訓(xùn)練文本數(shù)據(jù)與每一個(gè)預(yù)設(shè)標(biāo)簽屬性信息之間的文本交互表示;將每一個(gè)文本交互表示輸入到特征提取模型,得到文本關(guān)鍵特征;將所述文本關(guān)鍵特征輸入到初始分類模型進(jìn)行分類識(shí)別,得到每一個(gè)訓(xùn)練文本數(shù)據(jù)隸屬于每一個(gè)預(yù)設(shè)標(biāo)簽屬性信息的概率值,根據(jù)所述概率值,得到分類結(jié)果;根據(jù)所述分類結(jié)果訓(xùn)練所述初始分類模型的模型參數(shù),直至所述初始分類模型的損失函數(shù)值滿足目標(biāo)條件,得到目標(biāo)文本分類模型。
可選地,所述將所述訓(xùn)練文本數(shù)據(jù)以及多個(gè)預(yù)設(shè)標(biāo)簽屬性信息輸入到閱讀理解模型之前,所述方法還包括:獲取預(yù)訓(xùn)練文本數(shù)據(jù),所述預(yù)訓(xùn)練文本數(shù)據(jù)與所述訓(xùn)練文本數(shù)據(jù)的領(lǐng)域和分類任務(wù)相同;將所述預(yù)訓(xùn)練文本數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練,得到所述閱讀理解模型。
可選地,將所述訓(xùn)練文本數(shù)據(jù)以及多個(gè)預(yù)設(shè)標(biāo)簽屬性信息輸入到閱讀理解模型,包括:對(duì)所述訓(xùn)練文本數(shù)據(jù)以及所述多個(gè)預(yù)設(shè)標(biāo)簽屬性信息分別進(jìn)行分詞處理,得到訓(xùn)練文本數(shù)據(jù)序列和預(yù)設(shè)標(biāo)簽屬性信息序列;將所述訓(xùn)練文本數(shù)據(jù)序列和預(yù)設(shè)標(biāo)簽屬性信息序列進(jìn)行拼接處理,輸入到閱讀理解模型。
可選地,所述初始分類模型為多層感知機(jī)制模型,通過下式得到每一個(gè)訓(xùn)練文本數(shù)據(jù)隸屬于每一個(gè)預(yù)設(shè)標(biāo)簽屬性信息的概率值:
其中,p(labelj|W)表示訓(xùn)練文本數(shù)據(jù)屬于第j個(gè)標(biāo)簽的概率;hcnn表示文本關(guān)鍵特征;hCLS表示首位表征向量;表示hcnn與hCLS拼接;MLP表示多層感知機(jī)制模型的函數(shù)。
可選地,通過下式得到所述損失函數(shù)值:
Loss=y(tǒng)×p(labelj|W)+(1-y)×(1-p(labelj|W))
其中,loss表示損失函數(shù)值;y表示所述訓(xùn)練文本數(shù)據(jù)的標(biāo)簽屬于第j個(gè)標(biāo)簽的真實(shí)概率;p(labelj|W)表訓(xùn)練文本數(shù)據(jù)的標(biāo)簽屬于第j個(gè)標(biāo)簽的模型輸出概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江西高創(chuàng)保安服務(wù)技術(shù)有限公司,未經(jīng)江西高創(chuàng)保安服務(wù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011228040.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





