[發(fā)明專利]文本分類方法和裝置有效
| 申請?zhí)枺?/td> | 201510918981.2 | 申請日: | 2015-12-10 |
| 公開(公告)號: | CN105550291B | 公開(公告)日: | 2019-05-31 |
| 發(fā)明(設計)人: | 趙建明 | 申請(專利權)人: | 百度在線網(wǎng)絡技術(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京清亦華知識產(chǎn)權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 | ||
本發(fā)明公開了一種文本分類方法和裝置,其中,方法包括以下步驟:接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個分詞;對多個分詞進行歸一化,并生成文本數(shù)據(jù)對應的歸一化結果;以及將歸一化結果轉換為語義特征,并基于預設分類模型對語義特征進行分類。本發(fā)明實施例的文本分類方法和裝置,通過接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個分詞,對多個分詞進行歸一化,并生成文本數(shù)據(jù)對應的歸一化結果,以及將歸一化結果轉換為語義特征,并基于預設分類模型對語義特征進行分類,只需對訓練語料進行歸一化,無需頻繁增加訓練語料對模型進行重新訓練,降低了工作量,降低人工成本,并提升了模型訓練效率,訓練的模型穩(wěn)定性高,魯棒性好。
技術領域
本發(fā)明涉及計算機技術領域,尤其涉及一種文本分類方法和裝置。
背景技術
文本分類是指在預定的分類體系下,對文本進行分類標注的過程,能夠為意圖識別等提供數(shù)據(jù)基礎。目前,文本分類方法可分為以下幾個步驟:1)確定分類體系,主要根據(jù)需求確定分類的類別數(shù)和類別名稱;2)收集訓練數(shù)據(jù),主要通過人工編輯或者網(wǎng)絡爬蟲等方法為每個分類類別收集相應的訓練數(shù)據(jù);3)對訓練數(shù)據(jù)進行分詞處理;4)模型訓練,對獲得的分詞進行特征提取,然后進行模型訓練;5)對輸入的文本進行分類,基于預先訓練好的模型對輸入的文本進行分類。
但是,上述文本分類方法主要存在以下幾個缺陷:當模型中無法對當前文本進行分類時,需要根據(jù)當前文本重新訓練模型,因此需要大量的高質量的訓練語料進行模型訓練,工作量大,人工成本高,訓練的模型魯棒性差,穩(wěn)定性差。
發(fā)明內容
本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發(fā)明的一個目的在于提出一種文本分類方法,能夠降低工作量,降低人工成本,并提升模型訓練效率,訓練的模型穩(wěn)定性高,魯棒性好。
本發(fā)明的第二個目的在于提出一種文本分類裝置。
為了實現(xiàn)上述目的,本發(fā)明第一方面實施例提出了一種文本分類方法,包括:接收輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)切分為多個分詞;對所述多個分詞進行歸一化,并生成所述文本數(shù)據(jù)對應的歸一化結果;以及將所述歸一化結果轉換為語義特征,并基于預設分類模型對所述語義特征進行分類。
本發(fā)明實施例的文本分類方法,通過接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個分詞,對多個分詞進行歸一化,并生成文本數(shù)據(jù)對應的歸一化結果,以及將歸一化結果轉換為語義特征,并基于預設分類模型對語義特征進行分類,只需對訓練語料進行歸一化,無需頻繁增加訓練語料對模型進行重新訓練,降低了工作量,降低人工成本,并提升了模型訓練效率,訓練的模型穩(wěn)定性高,魯棒性好。
本發(fā)明第二方面實施例提出了一種文本分類裝置,包括:接收模塊,用于接收輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)切分為多個分詞;歸一化模塊,用于對所述多個分詞進行歸一化,并生成所述文本數(shù)據(jù)對應的歸一化結果;以及分類模塊,用于將所述歸一化結果轉換為語義特征,并基于預設分類模型對所述語義特征進行分類。
本發(fā)明實施例的文本分類裝置,通過接收輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)切分為多個分詞,對多個分詞進行歸一化,并生成文本數(shù)據(jù)對應的歸一化結果,以及將歸一化結果轉換為語義特征,并基于預設分類模型對語義特征進行分類,只需對訓練語料進行歸一化,無需頻繁增加訓練語料對模型進行重新訓練,降低了工作量,降低人工成本,并提升了模型訓練效率,訓練的模型穩(wěn)定性高,魯棒性好。
附圖說明
圖1是根據(jù)本發(fā)明一個實施例的文本分類方法的流程圖;
圖2是根據(jù)本發(fā)明一個實施例的建立預設分類模型的流程圖;
圖3是根據(jù)本發(fā)明一個實施例的文本分類裝置的結構示意圖一;
圖4是根據(jù)本發(fā)明一個實施例的文本分類裝置的結構示意圖二。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網(wǎng)絡技術(北京)有限公司,未經(jīng)百度在線網(wǎng)絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510918981.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





