[發(fā)明專利]一種文本分類方法、裝置、電子設(shè)備及可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010636759.4 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111611394B | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計)人: | 徐睿;唐球;關(guān)健;楊嘉佳;張雷;劉金;薛繼東;張尼 | 申請(專利權(quán))人: | 中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/289;G06K9/62 |
| 代理公司: | 北京超成律師事務(wù)所 11646 | 代理人: | 劉靜 |
| 地址: | 102209 北京市昌平*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 方法 裝置 電子設(shè)備 可讀 存儲 介質(zhì) | ||
1.一種文本分類方法,其特征在于,所述文本分類方法包括:
獲取待分類文本的至少一個文本段,以及所述待分類文本對應(yīng)的關(guān)鍵詞特征;
基于所述文本段中每個字詞與所述關(guān)鍵詞特征的相似度,確定所述文本段對應(yīng)的待擴(kuò)展文本段;
將所述待擴(kuò)展文本段中的預(yù)設(shè)詞性的字詞進(jìn)行同義詞替換,得到所述文本段對應(yīng)的擴(kuò)展文本段;
基于所述文本段以及所述擴(kuò)展文本段,對所述待分類文本進(jìn)行分類;
所述基于所述文本段中每個字詞與所述關(guān)鍵詞特征的相似度,確定所述文本段對應(yīng)的待擴(kuò)展文本段,包括:
獲取所述文本段中每個字詞與所述關(guān)鍵詞特征的相似度;
將多個相似度中的目標(biāo)相似度對應(yīng)的目標(biāo)字詞,以及在所述文本段中與所述目標(biāo)字詞位置相鄰的預(yù)設(shè)數(shù)量的字詞,確定為所述文本段對應(yīng)的待擴(kuò)展文本段,其中,所述目標(biāo)相似度大于多個相似度中除所述目標(biāo)相似度之外的其他相似度;
所述基于所述文本段以及所述擴(kuò)展文本段,對所述待分類文本進(jìn)行分類,包括:
獲取所述文本段的第一特征和所述擴(kuò)展文本段的第二特征;
基于所述第一特征、所述第二特征和預(yù)設(shè)的特征權(quán)重,確定所述文本段對應(yīng)的文本段特征;
基于所述文本段特征,確定所述待分類文本的文本特征;
基于所述文本特征,對所述待分類文本進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的文本分類方法,其特征在于,根據(jù)以下步驟確定所述待分類文本對應(yīng)的關(guān)鍵詞特征:
獲取所述待分類文本對應(yīng)的預(yù)設(shè)類別標(biāo)簽;
基于所述預(yù)設(shè)類別標(biāo)簽,確定所述待分類文本對應(yīng)的關(guān)鍵詞特征。
3.根據(jù)權(quán)利要求1所述的文本分類方法,其特征在于,若所述目標(biāo)字詞在所述文本段中位置相鄰字詞的數(shù)量少于預(yù)設(shè)數(shù)量,則將所述文本段確定為待擴(kuò)展文本段。
4.根據(jù)權(quán)利要求1所述的文本分類方法,其特征在于,所述基于所述文本段特征,確定所述待分類文本的文本特征,包括:
將所述文本段中每個字詞與所述關(guān)鍵詞特征的相似度的平均值確定為所述文本段的權(quán)重;
基于每個文本段對應(yīng)的文本段特征和權(quán)重,確定所述待分類文本的文本特征。
5.一種文本分類裝置,其特征在于,所述文本分類裝置包括:
第一獲取模塊,用于獲取待分類文本的至少一個文本段,以及所述待分類文本對應(yīng)的關(guān)鍵詞特征;
確定模塊,用于基于所述文本段中每個字詞與所述關(guān)鍵詞特征的相似度,確定所述文本段對應(yīng)的待擴(kuò)展文本段;
第二獲取模塊,用于將所述待擴(kuò)展文本段中的預(yù)設(shè)詞性的字詞進(jìn)行同義詞替換,得到所述文本段對應(yīng)的擴(kuò)展文本段;
分類模塊,用于基于所述文本段以及所述擴(kuò)展文本段,對所述待分類文本進(jìn)行分類;
所述確定模塊包括:
相似度獲取單元,用于獲取所述文本段中每個字詞與所述關(guān)鍵詞特征的相似度;
確定單元,用于將多個相似度中的目標(biāo)相似度對應(yīng)的目標(biāo)字詞,以及在所述文本段中與所述目標(biāo)字詞位置相鄰的預(yù)設(shè)數(shù)量的字詞,確定為所述文本段對應(yīng)的待擴(kuò)展文本段,其中,所述目標(biāo)相似度大于多個相似度中除所述目標(biāo)相似度之外的其他相似度;
所述分類模塊包括:
獲取單元,用于獲取所述文本段的第一特征和所述擴(kuò)展文本段的第二特征;
文本段特征確定單元,用于基于所述第一特征、所述第二特征和預(yù)設(shè)的特征權(quán)重,確定所述文本段對應(yīng)的文本段特征;
文本特征確定單元,用于基于所述文本段特征,確定所述待分類文本的文本特征;
分類單元,用于基于所述文本特征,對所述待分類文本進(jìn)行分類。
6.一種電子設(shè)備,其特征在于,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時,所述處理器與所述存儲器之間通過總線通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時執(zhí)行如權(quán)利要求1至4中任一項(xiàng)所述的文本分類方法的步驟。
7.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器運(yùn)行時執(zhí)行如權(quán)利要求1至4中任一項(xiàng)所述的文本分類方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,未經(jīng)中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010636759.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





