[發明專利]一種小樣本文本分類方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202110343641.7 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112989049A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 程良倫;王德培;張偉文;李睿濠;譚駿銘;蔡森源 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06N3/04 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 文本 分類 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種小樣本文本分類方法,其特征在于,所述方法包括以下步驟:
S1:獲取文本數據集,對文本數據集進行處理,獲得小樣本文本數據集;
S2:對小樣本文本數據集中的文本數據進行預處理;
S3:用向量形式表征預處理后文本數據中的單詞和句子;
S4:以句子為單元劃分句子節點,計算句子節點間的權重;
S5:遍歷所有句子節點,計算每個句子節點的累加權重,直到每個句子節點的累加權重都收斂;
S6:按照累加權重的數值從大到小對句子節點進行排序,提取前n位的句子節點對應的句向量作為文本摘要;
S7:對文本摘要的句向量中每個詞向量加權,獲得最終句向量;
S8:選定分類器,利用最終句向量對分類器進行訓練,利用文本數據集中的文本數據對分類器進行性能測試,實現分類。
2.根據權利要去1所述的小樣本文本分類方法,其特征在于,所述S1中,獲得小樣本文本數據集的具體方法為:
將文本數據集分為訓練集、測試集和驗證集;將訓練集、測試集和驗證集每個集合分為支撐集和查詢集,對支撐集中的每個類別抽取定量文本數據,組成小樣本文本數據集。
3.根據權利要去2所述的小樣本文本分類方法,其特征在于,所述S2中,對文本數據預處理的方法包括:文本分句、句子分詞和去除停用詞。
4.根據權利要去3所述的小樣本文本分類方法,其特征在于,所述S3中,利用Glove算法,生成預處理后文本數據中的單詞s的詞向量vector(s);句向量表示為:vi=Avg(vector(s)),其中vi表示第i個句子對應的句向量,其中Avg(·)表示求均值操作。
5.根據權利要去4所述的小樣本文本分類方法,其特征在于,所述S4中,計算句子節點間的權重wij的具體方法為:
構建有向有權圖G=(V,E,W),V表示句向量集合,E表示句子節點間的邊,W表示句子節點間的權重集合;V、E和W分別表示為:
V={v1,v2,...,vi,vn-1,vn}
E={(v1,v2),(v1,v3),...,(vi,vj),(vn,vn-2),(vn,vn-1)}
W={w12,w13,...,wij,...,wn(n-2),wn(n-1)}
則句子節點間的權重wij表示為:
wij=cos(vi,vj)
其中,wij表示第i個句子對應的句向量和第j個句子對應的句向量量間的權重,1<i<n,1<j<n,n表示文本數據中句子的數量。
6.根據權利要去5所述的小樣本文本分類方法,其特征在于,所述S5中,計算各句子節點的累加權重的具體方法為:
其中,WS(vi)表示第i個句子對應的句向量的累加權重,d表示阻尼系數,vj表示第j個句子對應的句向量,IN(vi)表示指向vi的集合,vk表示第k個句子對應的句向量,OUT(vj)表示vj指向的集合,wji表示第j個句子對應的句向量和第i個句子對應的句向量間的權重,wjk表示第j個句子對應的句向量和第k個句子對應的句向量間的權重,WS(vj)表示第j個句子對應的句向量的累加權重,1<i<n,1<j<n,n表示文本數據中句子的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110343641.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種個性化二尖瓣自動建模方法、系統及設備
- 下一篇:樁基模型的生成方法及裝置





