[發(fā)明專(zhuān)利]一種文本分類(lèi)模型的建立方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810038485.1 | 申請(qǐng)日: | 2018-01-15 |
| 公開(kāi)(公告)號(hào): | CN108228869B | 公開(kāi)(公告)日: | 2020-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 雷豐豐 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/289 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100080 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類(lèi) 模型 建立 方法 裝置 | ||
1.一種文本分類(lèi)模型的建立方法,其特征在于,所述方法包括:
從原始樣本語(yǔ)料中,確定屬于各個(gè)預(yù)設(shè)類(lèi)別的種子特征詞;所述各個(gè)預(yù)設(shè)類(lèi)別屬于至少兩個(gè)維度;
對(duì)于每個(gè)預(yù)設(shè)類(lèi)別的種子特征詞,確定所述種子特征詞的至少一階相關(guān)詞集合;
對(duì)于每階相關(guān)詞集合中的每個(gè)相關(guān)詞,確定所述相關(guān)詞與所述種子特征詞之間的近似度;
將近似度大于預(yù)設(shè)近似度閾值的相關(guān)詞和所述種子特征詞,確定為所述預(yù)設(shè)類(lèi)別對(duì)應(yīng)的類(lèi)別特征詞集合;
根據(jù)所述各個(gè)預(yù)設(shè)類(lèi)別所對(duì)應(yīng)的類(lèi)別特征詞集合,建立針對(duì)不同維度的文本分類(lèi)模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)于每階相關(guān)詞集合中的每個(gè)相關(guān)詞,確定所述相關(guān)詞與所述種子特征詞之間的近似度,包括:
對(duì)于每階相關(guān)詞集合中的每個(gè)相關(guān)詞,確定所述相關(guān)詞的一階相關(guān)詞集合;
確定所述相關(guān)詞的一階相關(guān)詞集合與所述種子特征詞的一階相關(guān)詞集合的相關(guān)詞交集;
確定所述相關(guān)詞的一階相關(guān)詞集合與所述種子特征詞的一階相關(guān)詞集合的相關(guān)詞并集;
將所述相關(guān)詞交集的詞語(yǔ)數(shù)量除以所述相關(guān)詞并集的詞語(yǔ)數(shù)量,得到所述相關(guān)詞與所述種子特征詞之間的近似度。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)于每階相關(guān)詞集合中的每個(gè)相關(guān)詞,確定所述相關(guān)詞與所述種子特征詞之間的近似度,包括:
對(duì)于每階相關(guān)詞集合中的每個(gè)相關(guān)詞,確定所述相關(guān)詞的一階相關(guān)詞集合;
確定所述相關(guān)詞的一階相關(guān)詞集合與所述種子特征詞的一階相關(guān)詞集合的相關(guān)詞交集;
將所述相關(guān)詞交集的詞語(yǔ)數(shù)量確定為所述相關(guān)詞與所述種子特征詞之間的近似度。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從原始樣本語(yǔ)料中,確定屬于各個(gè)預(yù)設(shè)類(lèi)別的種子特征詞,包括:
對(duì)原始樣本語(yǔ)料進(jìn)行分詞處理,得到多個(gè)樣本詞匯;
確定每個(gè)樣本詞匯的詞頻-逆向文檔頻率TF-IDF;
從所述多個(gè)樣本詞匯中,選擇TF-IDF大于預(yù)設(shè)TF-IDF閾值的樣本特征詞;
對(duì)于任一樣本特征詞,當(dāng)接收到針對(duì)所述樣本特征詞的類(lèi)別選擇指令時(shí),將所述樣本特征詞確定為所選擇的預(yù)設(shè)類(lèi)別的種子特征詞。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述各個(gè)預(yù)設(shè)類(lèi)別所對(duì)應(yīng)的類(lèi)別特征詞集合,建立針對(duì)不同維度的文本分類(lèi)模型之后,還包括:
將各個(gè)測(cè)試文本分別輸入至所述針對(duì)不同維度的文本分類(lèi)模型;
對(duì)于針對(duì)每個(gè)維度的文本分類(lèi)模型,確定所述文本分類(lèi)模型的準(zhǔn)確度;
當(dāng)所述準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值時(shí),輸出針對(duì)所述維度的最終文本分類(lèi)模型。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述當(dāng)所述準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值時(shí),輸出針對(duì)所述維度的最終文本分類(lèi)模型之后,還包括:
當(dāng)獲取到目標(biāo)文本時(shí),將所述目標(biāo)文本分別輸入至針對(duì)不同維度的最終文本分類(lèi)模型,以在不同維度中對(duì)所述目標(biāo)文本進(jìn)行分類(lèi)。
7.一種文本分類(lèi)模型的建立裝置,其特征在于,所述裝置包括:
第一確定模塊,用于從原始樣本語(yǔ)料中,確定屬于各個(gè)預(yù)設(shè)類(lèi)別的種子特征詞;所述各個(gè)預(yù)設(shè)類(lèi)別屬于至少兩個(gè)維度;
第二確定模塊,用于對(duì)于每個(gè)預(yù)設(shè)類(lèi)別的種子特征詞,確定所述種子特征詞的至少一階相關(guān)詞集合;
第三確定模塊,用于對(duì)于每階相關(guān)詞集合中的每個(gè)相關(guān)詞,確定所述相關(guān)詞與所述種子特征詞之間的近似度;
第四確定模塊,用于將近似度大于預(yù)設(shè)近似度閾值的相關(guān)詞和所述種子特征詞,確定為所述預(yù)設(shè)類(lèi)別對(duì)應(yīng)的類(lèi)別特征詞集合;
建立模塊,用于根據(jù)所述各個(gè)預(yù)設(shè)類(lèi)別所對(duì)應(yīng)的類(lèi)別特征詞集合,建立針對(duì)不同維度的文本分類(lèi)模型。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810038485.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)





