[發明專利]文本的分類方法及裝置有效
| 申請號: | 201911383131.1 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111159404B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 韓俊明;馬志芳;張文劍 | 申請(專利權)人: | 海爾優家智能科技(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/08 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 張周洋 |
| 地址: | 100086 北京市海淀區知春*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 | ||
本發明提供了一種文本的分類方法及裝置,方法包括提取文本的特征,其中,特征包括文本特征和詞性特征;根據特征確定特征的特征權重;使用第一模型對特征權重進行分析,確定文本的文本類別,其中,第一模型為使用多組數據對深度神經網絡進行訓練得到的,多組數據中的每組數據均包括:多個樣本文本,以及,多個樣本文本的文本類別。通過本發明,解決了短文本分類領域中的分類準確度較低問題,達到提高分類準確度的效果。
技術領域
本發明涉及通信領域,具體而言,涉及一種文本的分類方法及裝置。
背景技術
在文本分類的問題中,一般需要先將文本轉化為數據才能代入模型和算法。tf_idf(term?frequency–inverse?document?frequency)是一種用于數據挖掘的常用加權技術。tf_idf是一種統計方法,用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,其中,tf_idf即計算tf和idf的乘積,其中tf是文檔頻率,用于描述該詞反映該文檔內容的能力,可以指某一個給定的詞語在該文件中出現的頻率;idf是逆文檔頻率,用于計算該詞區分不同文檔的能力,可以指總文檔數除以包含該詞的文檔數再取對數。根據這種計算方式得到的tf_idf值會偏向于文本中出現頻率高且在總文檔中包含該詞的文檔數的頻率較低的詞。
然而在某些場景中,例如短文本分類領域中,由于文本短小、特征有限,短文本中詞出現的頻數一般為1,上述的計算權重的方式不能正確地體現詞對分類的貢獻度,導致分類結果存在較大偏差,分類準確度較低。比如以智能語音文本分類為例,“空調”出現的文檔一般都屬于家電類,是一個名詞,而且出現的文檔次數較多,而某些詞比如“一般”可能比較均勻出現在每一類或者出現的文檔次數較少一些,是一個形容詞,這樣一來在幾乎每個詞頻數為1的短文本中計算“空調”的權重必然會少于“一般”這個詞的權重,在家電類別中名詞也會比較重要一些,利用相關技術中的分類方法,很難體現“空調”這個名詞對家電類別的突出貢獻。
針對相關技術中,短文本分類領域中的分類準確度較低的問題,尚不存在解決方案。
發明內容
本發明實施例提供了一種文本的分類方法及裝置,以至少解決相關技術中短文本分類領域中的分類準確度較低的問題。
根據本發明的一個實施例,提供了一種文本的分類方法,包括:提取所述文本的特征,其中,所述特征包括文本特征和詞性特征;根據所述特征確定所述特征的特征權重;使用第一模型對所述特征權重進行分析,確定所述文本的文本類別,其中,所述第一模型為使用多組數據對深度神經網絡進行訓練得到的,所述多組數據中的每組數據均包括:多個樣本文本,以及,所述多個樣本文本的文本類別。
根據本發明的另一個實施例,提供了一種文本的分類裝置,包括:
提取模塊,用于提取所述文本的特征,其中,所述特征包括文本特征和詞性特征;
確定模塊,用于根據所述特征確定所述特征的特征權重;
分析模塊,用于使用第一模型對所述特征權重進行分析,確定所述文本的文本類別,其中,所述第一模型為使用多組數據對深度神經網絡進行訓練得到的,所述多組數據中的每組數據均包括:多個樣本文本,以及,所述多個樣本文本的文本類別。
根據本發明的又一個實施例,還提供了一種計算機可讀的存儲介質,所述計算機可讀的存儲介質中存儲有計算機程序,其中,所述計算機程序被設置為運行時執行上述任一項方法實施例中的步驟。
根據本發明的又一個實施例,還提供了一種電子裝置,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行上述任一項方法實施例中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于海爾優家智能科技(北京)有限公司,未經海爾優家智能科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911383131.1/2.html,轉載請聲明來源鉆瓜專利網。





