[發(fā)明專利]一種文本分類方法及系統(tǒng)、意圖分類系統(tǒng)和機器人有效
| 申請?zhí)枺?/td> | 202110028487.4 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112347262B | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設(shè)計)人: | 衣得平;李海濱;翁國海 | 申請(專利權(quán))人: | 北京江融信科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F40/35 |
| 代理公司: | 北京天盾知識產(chǎn)權(quán)代理有限公司 11421 | 代理人: | 張彩珍 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 方法 系統(tǒng) 意圖 機器人 | ||
本發(fā)明公開了一種文本分類方法及系統(tǒng)、意圖分類系統(tǒng)和機器人,包括構(gòu)建詞匯表,依次對詞匯表中的所有詞匯進行編碼;基于編碼建立詞匯和圖像像素點的映射關(guān)系,詞匯與圖像像素點一一對應(yīng);構(gòu)建訓(xùn)練樣本和測試樣本,基于詞匯和圖像像素點的映射關(guān)系將訓(xùn)練樣本和測試樣本中出現(xiàn)的詞匯映射到圖像的像素點上,并將出現(xiàn)詞匯對應(yīng)的像素點設(shè)置為第一顏色,其他像素點設(shè)置為第二顏色,形成訓(xùn)練樣本圖像和測試樣本圖像;第一顏色和第二顏色不相同;基于訓(xùn)練樣本圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò)形成文本分類模型;將待分類文本映射為圖像,并將其輸入文本分類模型中進行文本分類;該方法把文本映射到一個圖像上,用簡單的神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)進行文本分類,準確率高。
技術(shù)領(lǐng)域
本發(fā)明涉及文本分類技術(shù)領(lǐng)域,具體涉及一種文本分類方法及系統(tǒng)、意圖分類系統(tǒng)和機器人。
背景技術(shù)
文本分類應(yīng)用于很多領(lǐng)域,比如垃圾信息的檢測、新聞的自動分類等;現(xiàn)有的神經(jīng)網(wǎng)絡(luò)文本分類大部分需要詞向量來實現(xiàn),通過詞向量把高維的信息壓縮到較小的維度,然后輸入到神經(jīng)網(wǎng)絡(luò)里進行分類;然而詞向量需要進行大量文本統(tǒng)計,存在語法、語義以及人工信息均難以融合進去等缺陷;而且詞表中所有的詞向量構(gòu)成的向量空間維度還是相對較大,例如詞向量是500的一個文章,如果文章長度是1萬個詞匯那么至少要500*10000這么大的矩陣來存儲,而對于100個詞匯的小文章只用到前面一部分矩陣空間500*100,即詞向量構(gòu)成的圖像并非固定寬度的圖像,圖片之間有大有小,甚至相差100倍,用普通的CNN等網(wǎng)絡(luò)不能識別較大的圖片,而這種“圖片”不能縮放,如果縮放的話就丟失詞向量信息,因此必須用到較為復(fù)雜的神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)才能進行文本分類。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明的一個目的是提供一種文本分類方法,該方法無需使用詞向量,直接把待分類的文本映射到一個圖像上,然后用簡單的神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)進行文本分類,準確率高。
本發(fā)明的第二個目的是提供一種文本分類系統(tǒng)。
本發(fā)明的第三個目的是提供一種意圖分類系統(tǒng)。
本發(fā)明的第四個目的是提供一種機器人。
本發(fā)明所采用的第一個技術(shù)方案是:一種文本分類方法,包括以下步驟:
S100:基于待分類的文本材料構(gòu)建詞匯表,并依次對詞匯表中的所有詞匯進行編碼;
S200:基于所述編碼建立詞匯和圖像像素點的映射關(guān)系,其中所述詞匯與圖像像素點一一對應(yīng);
S300:構(gòu)建訓(xùn)練樣本和測試樣本,基于所述詞匯和圖像像素點的映射關(guān)系將所述訓(xùn)練樣本和測試樣本中出現(xiàn)的詞匯映射到圖像的像素點上,并將出現(xiàn)詞匯對應(yīng)的像素點設(shè)置為第一顏色,其他像素點設(shè)置為第二顏色,形成訓(xùn)練樣本圖像和測試樣本圖像;所述第一顏色和第二顏色不相同;
S400:基于所述訓(xùn)練樣本圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò)形成文本分類模型;
S500:基于所述詞匯和圖像像素點的映射關(guān)系將待分類文本映射為圖像,并將該圖像輸入所述文本分類模型中進行文本分類。優(yōu)選地,所述步驟S100中還包括:統(tǒng)計詞匯表中各詞匯的詞頻,基于詞頻的大小依次對詞匯表中的所有詞匯進行編碼,并刪除詞匯表中詞頻低于設(shè)定閾值的詞匯。
優(yōu)選地,所述步驟S100中還包括:將待分類的文本材料進行分詞,基于分詞后得到的詞匯構(gòu)建詞匯表。
優(yōu)選地,所述詞匯表中的各詞匯包括單詞匯、第一組合詞匯和第二組合詞匯;所述第一組合詞匯由相鄰的單詞匯組合構(gòu)成,所述第二組合詞匯由不相鄰的單詞匯組合構(gòu)成。
優(yōu)選地,所述S100中還包括:根據(jù)語義信息或語法信息增加集合詞。本發(fā)明所采用的第二個技術(shù)方案是:一種文本分類系統(tǒng),包括詞匯表構(gòu)建模塊、編碼模塊、映射模塊、樣本圖像生成模塊、文本分類模型構(gòu)建模塊和文本分類模塊;
所述詞匯表構(gòu)建模塊用于基于待分類的文本材料構(gòu)建詞匯表;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京江融信科技有限公司,未經(jīng)北京江融信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110028487.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





