[發明專利]一種基于詞嵌入的文本分類訓練樣本擴充方法有效
| 申請號: | 201911119076.5 | 申請日: | 2019-11-15 |
| 公開(公告)號: | CN111104510B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 卓可秋 | 申請(專利權)人: | 南京中新賽克科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/214;G06F18/2413 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王安琪 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 嵌入 文本 分類 訓練 樣本 擴充 方法 | ||
1.一種基于詞嵌入的文本分類訓練樣本擴充方法,其特征在于,包括如下步驟:
(1)從小樣本類中獲取關鍵詞,形成關鍵詞集合;
(2)將非小樣本類的所有文本分詞,隨機抽掉一半的詞,并從關鍵詞集合中有放回地隨機選取相應數量的詞,替換非小樣本類文本中被抽掉的詞,形成新的語段;
(3)用文本相似度計算新語段與已知訓練樣本的K最近鄰;
(4)將經過K最近鄰分類后歸為小樣本類的新語段篩選出來,與文本分類訓練樣本集合并,形成擴充后的訓練樣本集。
2.如權利要求1所述的基于詞嵌入的文本分類訓練樣本擴充方法,其特征在于,步驟(1)中,小樣本類中每篇文本的自動關鍵詞抽取包括有監督、半監督和無監督三大類;有監督方法,將關鍵詞抽取看做是二元分類問題,判斷文本中的詞或短語是或不是關鍵詞,提供已經標注關鍵詞的訓練語料,利用訓練語料訓練關鍵詞抽取模型,利用得到的模型對需要抽取關鍵詞的文本進行自動關鍵詞抽取;半監督方法,只需要少量的訓練語料,利用這些語料訓練抽取模型,利用模型進行未標注文本的關鍵詞抽取,人工對抽取結果進行甄別,將正確的標注加到訓練語料中再訓練模型;無監督方法,利用抽取系統完成文本或文本集合的自動關鍵詞抽取,自動關鍵詞抽取方法有:TFIDF、LDA主題詞、圖網絡、深度學習。
3.如權利要求1所述的基于詞嵌入的文本分類訓練樣本擴充方法,其特征在于,步驟(2)中,分詞算法分為以下幾種:基于詞典、基于統計以及基于深度學習的語義理解中文分詞。
4.如權利要求1所述的基于詞嵌入的文本分類訓練樣本擴充方法,其特征在于,步驟(3)中,文本相似度計算方法包括:基于字符串的方法、基于語料庫的方法、基于知識庫的方法和混合方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中新賽克科技有限責任公司,未經南京中新賽克科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911119076.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:系統安全漏洞的檢測方法和裝置
- 下一篇:一種短切紗揚料式烘干裝置





