[發明專利]基于標簽信息與文本特征的文本分類方法、系統及介質有效
| 申請號: | 201811296063.0 | 申請日: | 2018-11-01 |
| 公開(公告)號: | CN109492101B | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 杜存宵;馮福利;陳召崢;李永祺;宋雪萌;聶禮強 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 信息 文本 特征 分類 方法 系統 介質 | ||
1.基于標簽信息與文本特征的文本分類方法,其特征是,包括:
特征提取步驟,從給定的文本中提取第一文本特征,從給定的文本對應的標簽中提取第一標簽特征;
特征融合步驟,將第一文本特征和第一標簽特征進行特征融合,得到融合后的第三特征;
模型訓練步驟,將融合后的第三特征輸入到多層感知機中對多層感知機進行訓練,得到訓練好的多層感知機;
文本分類步驟,從待分類的文本中提取第二文本特征,從待分類的文本對應的標簽中提取第二標簽特征,對第二文本特征和第二標簽特征進行特征融合得到融合后的第四特征,將融合后的第四特征輸入到已經訓練好的多層感知機中進行分類,輸出分類結果;
所述從給定的文本中提取第一文本特征的具體步驟為:
首先,將每個詞映射為詞向量;進而得到詞向量序列;
然后,利用循環神經網絡對詞向量序列進行處理,得到每個詞的編碼上下文向量;
最后,得到的第一文本特征;
將第一文本特征和第一標簽特征進行特征融合,得到融合后的第三特征的具體步驟為:
Iit=Interaction(ht,Si)
其中,Interaction()表示用于交互的函數,采用點乘運算來作為具體實現方式;Iit表示融合后的第三特征;
所述從給定的文本中提取第一文本特征的具體步驟為:
對于給定文本,假設給定文本包括T個詞;
首先,將每個詞wt映射為詞向量進而得到詞向量序列:
然后,利用循環神經網絡對詞向量序列進行處理,得到每個詞的編碼上下文向量ht;
其中,h0由隨機初始化得到,f是由循環神經網絡單元構成的非線性函數,ht是循環神經網絡的在t時刻的隱狀態,ht-1是循環神經網絡的在t-1時刻的隱狀態;
最后,得到的第一文本特征即為{h1,h2,…,ht,…,hT};
從給定的文本對應的標簽中提取第一標簽特征的具體步驟為:
對于每個標簽L映射為對應的詞向量S。
2.如權利要求1所述的基于標簽信息與文本特征的文本分類方法,其特征是,
將融合后的第三特征輸入到多層感知機中對多層感知機進行訓練,得到訓練好的多層感知機的具體步驟為:
將融合后的第三特征輸入到多層感知機中,多層感知機輸出第三特征的降維結果;
根據多層感知機的輸出結果,計算多層感知機損失函數值,如果多層感知機的損失函數值小于設定閾值,則表示多層感知機訓練合格,將訓練結束得到的多層感知機作為訓練好的多層感知機;
如果多層感知機的損失函數值大于等于設定閾值,則表示多層感知機訓練不合格,返回特征提取步驟,繼續對其他給定文本和標簽進行特征提取和特征融合,將融合得到的新特征對多層感知機進行繼續訓練,直至多層感知機訓練合格為止。
3.如權利要求1所述的基于標簽信息與文本特征的文本分類方法,其特征是,
輸出分類結果的為:對于每個標簽的得分,選擇評分靠前的N個標簽作為輸出。
4.基于標簽信息與文本特征的文本分類系統,其特征是,包括:存儲器、處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成上述權利要求1-3任一項方法所述的步驟。
5.一種計算機可讀存儲介質,其特征是,其上運行有計算機指令,所述計算機指令被處理器運行時,完成上述權利要求1-3任一項方法所述的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811296063.0/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





