[發(fā)明專利]文本分類方法和裝置、及電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201811337616.2 | 申請(qǐng)日: | 2018-11-09 |
| 公開(公告)號(hào): | CN109460472A | 公開(公告)日: | 2019-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 朱翔宇 | 申請(qǐng)(專利權(quán))人: | 北京京東金融科技控股有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 呂雁葭 |
| 地址: | 100176 北京市大興區(qū)北京經(jīng)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本分類 文本 方法和裝置 電子設(shè)備 向量特征 預(yù)測(cè)信息 分類器 組分類 分類結(jié)果 文本數(shù)據(jù) | ||
本公開提供了一種文本分類方法和裝置,及電子設(shè)備。該文本分類方法包括:根據(jù)文本包括的多個(gè)文本數(shù)據(jù),獲取文本的向量特征;以向量特征作為多個(gè)第一分類器的輸入,得到文本的多組分類預(yù)測(cè)信息;以及以多組分類預(yù)測(cè)信息作為第二分類器的輸入,得到文本的分類結(jié)果。
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)技術(shù)領(lǐng)域,更具體地,涉及一種文本分類方法和裝置、及電子設(shè)備。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,自然語(yǔ)言處理得到飛速發(fā)展,其中,文本分類任務(wù)是自然語(yǔ)言處理(NLP)領(lǐng)域中基礎(chǔ)和傳統(tǒng)的任務(wù)之一,該文本分類任務(wù)又會(huì)根據(jù)領(lǐng)域類型的不同分成很多子任務(wù),例如情感分類、主題分類和問(wèn)題分類等。
在實(shí)現(xiàn)本構(gòu)思的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問(wèn)題:現(xiàn)有的文本分類的方法,只是簡(jiǎn)單的利用詞頻-逆文件頻率(term frequency-inverse documentfrequency,TF-IDF)特征,通過(guò)單層分類器,根據(jù)權(quán)重計(jì)算來(lái)預(yù)測(cè)得到文本的分類結(jié)果,但由于待分類的文本可能是不同上報(bào)者上報(bào)的,則由于不同上報(bào)者具有不同的描述用詞習(xí)慣等,可能會(huì)導(dǎo)致對(duì)文本預(yù)測(cè)的分類結(jié)果不準(zhǔn)確,從而不能很好的解決實(shí)際問(wèn)題中不同背景的分類問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本公開提供了一種能夠提高文本分類準(zhǔn)確度的文本分類方法和裝置、及電子設(shè)備。
本公開的一個(gè)方面提供了一種文本分類方法,該方法包括:根據(jù)文本包括的多個(gè)文本數(shù)據(jù),獲取文本的向量特征;以向量特征作為多個(gè)第一分類器的輸入,得到文本的多組分類預(yù)測(cè)信息;以及以多組分類預(yù)測(cè)信息作為第二分類器的輸入,得到文本的分類結(jié)果。
根據(jù)本公開的實(shí)施例,上述文本的向量特征包括:頻率向量,用于表征文本包括的多個(gè)文本數(shù)據(jù)的詞頻-逆文件頻率;并且/或者,詞向量,用于表征文本包括的多個(gè)文本數(shù)據(jù);并且/或者,句向量,用于表征文本包括的多個(gè)文本數(shù)據(jù)組成的多個(gè)語(yǔ)句。
根據(jù)本公開的實(shí)施例,上述以向量特征作為多個(gè)第一分類器的輸入,得到文本的多組預(yù)測(cè)分類信息包括:以頻率向量、詞向量和句向量中的至少兩個(gè)向量分別作為多個(gè)不同的第一分類器的輸入,得到文本的多組分類預(yù)測(cè)信息,其中,以詞向量或句向量作為輸入的第一分類器包括神經(jīng)網(wǎng)絡(luò)模型分類器,每個(gè)第一分類器以一個(gè)向量作為輸入,得到一組分類預(yù)測(cè)信息。
根據(jù)本公開的實(shí)施例,上述以向量特征作為多個(gè)第一分類器的輸入,得到文本的多組預(yù)測(cè)分類信息包括:以頻率向量分別作為多個(gè)不同的第一分類器的輸入,得到文本的多組分類預(yù)測(cè)信息,其中,以頻率向量作為輸入的第一分類器包括伯努利模型分類器、多項(xiàng)式模型分類器和/或邏輯回歸模型分類器。
根據(jù)本公開的實(shí)施例,上述文本分類方法還包括:根據(jù)文本包括的多個(gè)文本數(shù)據(jù),獲取文本的統(tǒng)計(jì)特征;以及以統(tǒng)計(jì)特征及多組分類預(yù)測(cè)信息作為第二分類器的輸入,得到文本的分類結(jié)果,其中,統(tǒng)計(jì)特征包括:文本包括的多個(gè)文本數(shù)據(jù)中每個(gè)文本數(shù)據(jù)的出現(xiàn)次數(shù)、多個(gè)文本數(shù)據(jù)中包括預(yù)設(shè)關(guān)鍵詞的數(shù)量、和/或根據(jù)文本包括的多個(gè)文本數(shù)據(jù)中的時(shí)間數(shù)據(jù)得到的時(shí)間間隔的最大值、最小值、極差值和/或平均值。
根據(jù)本公開的實(shí)施例,上述文本分類方法在獲取文本的向量特征之前,還包括:對(duì)文本包括的所有文本數(shù)據(jù)進(jìn)行分詞處理,得到多個(gè)文本數(shù)據(jù);并且/或者,過(guò)濾掉文本包括的所有文本數(shù)據(jù)中的停用詞,得到多個(gè)文本數(shù)據(jù)。
本公開的另一個(gè)方面提供了一種文本分類裝置,該裝置包括:處理模塊,用于根據(jù)文本包括的多個(gè)文本數(shù)據(jù),獲取文本的向量特征;多個(gè)第一分類器,用于分別以向量特征作為輸入,得到文本的多組分類預(yù)測(cè)信息;以及第二分類器,用于以多組分類預(yù)測(cè)信息作為輸入,得到文本的分類結(jié)果。
根據(jù)本公開的實(shí)施例,上述文本的向量特征包括:頻率向量,用于表征文本包括的多個(gè)文本數(shù)據(jù)的詞頻-逆文件頻率;并且/或者,詞向量,用于表征文本包括的多個(gè)文本數(shù)據(jù);并且/或者,句向量,用于表征文本包括的多個(gè)文本數(shù)據(jù)組成的多個(gè)語(yǔ)句。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東金融科技控股有限公司,未經(jīng)北京京東金融科技控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811337616.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種文本分類方法及裝置
- 文本分類方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型訓(xùn)練方法、文本分類方法及設(shè)備
- 文本分類方法和裝置、服務(wù)器
- 文本分類方法及裝置
- 文本分類方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型封裝方法、文本分類方法及相關(guān)設(shè)備
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





