[發明專利]一種基于文本多向量表示相互學習的垃圾評論過濾方法有效
| 申請號: | 201810053433.1 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108304509B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 何克晶;劉琰翔 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/289;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 多向 表示 相互 學習 垃圾 評論 過濾 方法 | ||
1.一種基于文本多向量表示相互學習的垃圾評論過濾方法,其特征在于,包括下述步驟:
S1:獲取電商網站的評論數據,并將獲得的評論數據分為訓練集和添加集;其中,訓練集用于建立分類器,添加集用于加強訓練集訓練出的分類器;
S2:對所有的評論數據都進行預處理:先刪除數據中的噪聲數據,然后對除噪后的數據進行中文分詞,最后將分詞結果中的停用詞過濾掉;
所述步驟S2中,使用的多種向量表示時,所述添加集本質上就是未標注的訓練集,在進行統計詞頻來向量化文本時,將訓練集和添加集進行統一計算;
采取三種不同的向量表現方法:GloVe模型、TF-IDF算法和LDA模型;
(1)用GloVe模型進行文本表示;
采用中文維基百科數據訓練GloVe模型,然后使用訓練好的GloVe模型對訓練集中的文本的每個詞進行向量表示,將同一文本下的詞向量進行加操作得到該文本的向量;
(2)用TF-IDF算法進行文本表示;
在訓練過程中會將添加集中的文本不斷移到訓練集中,所以在計算詞頻矩陣時需要將訓練集和添加集的文本統一納入計算,從而得到每個訓練集中每個文本的TF-IDF向量表示;
(3)用LDA進行文本表示
訓練過程中會將添加集中的文本不斷移到訓練集中,所以在進行主題模型訓練時需要將訓練集和添加集的文本都放入訓練,然后借助訓練好的主題模型就可以得到訓練集中每個文本的LDA向量表示;
S3:使用n種不同的方法將訓練集中的同一文本映射為n種不同的空間向量,即用多種不同的向量表示;
S4:使用一種分類器的訓練方法,利用某種形式文本向量訓練得到一個分類器Cn;
S5:利用分類器Cn對添加集中未標注的文本進行標注;
S6:從添加集中未標注的文本中選擇分類器Cn預測的分數得分最高的2k個文本En放入總樣本集合E中,選取時需要注意正負樣本平衡的問題,選取k個正樣本和k個負樣本;若樣本已經在E中,則跳過該樣本選取下一個樣本;
S7:重復S4-S6步驟n次,每次使用的分類器訓練方法一樣,而文本向量化的方法不一樣;
S8:對選取的總樣本集合E進行處理,若樣本得分低于預設閾值,則直接丟棄該樣本;
S9:將樣本集合E從添加集中移到訓練集合中;
S10:重復S4-S9,直至達到預設迭代次數或添加集合數據為空或添加集合中的所有樣本得分都低于預設閾值;
S11:經過上述10個步驟得到了n個分類器;對于新來的評論,同樣采用n種向量表示方式,然后輸入到對應的分類器中,累加其正負得分,最終輸出分類預測結果,由此完成垃圾評論的過濾。
2.根據權利要求1所述 基于文本多向量表示相互學習的垃圾評論過濾方法,其特征在于,所述步驟S1中,獲取的電商網站評論數據中的訓練集由人工進行標注,且添加集大于訓練集。
3.根據權利要求1所述 基于文本多向量表示相互學習的垃圾評論過濾方法,其特征在于,步驟S8中的預設迭代次數和預設得分閥值都是可以人工根據特定電商網站評論數據的特性進行設置的。
4.根據權利要求1所述 基于文本多向量表示相互學習的垃圾評論過濾方法,其特征在于,步驟S11中,對新來的評論進行向量表示時使用和步驟S3相同的標準。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810053433.1/1.html,轉載請聲明來源鉆瓜專利網。





