[發明專利]一種基于文本多向量表示相互學習的垃圾評論過濾方法有效
| 申請號: | 201810053433.1 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108304509B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 何克晶;劉琰翔 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/289;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 多向 表示 相互 學習 垃圾 評論 過濾 方法 | ||
本發明公開了一種基于文本多向量相互學習的垃圾評論過濾方法,所述方法首先對訓練集的評論文本進行預處理后用多種不同的文本向量表示方法對同一文本進行向量化表示,然后采用同一種分類器訓練方法根據這些不同的向量表示方式訓練出多個不同的分類器,之后借鑒協同訓練的思想讓這些分類器間相互學習,并不斷將添加集的數據進行標注并移到訓練集中;最終可以得到能力都有所提升的多個分類器。本發明借鑒協同訓練的思想,只需要人工標注部分數據,即可對剩余數據進行自動標注,這樣不僅減少了大量的人工標注數據工作,同時也提升了分類器的分類能力,使得垃圾評論的過濾精度得以提高。
技術領域
本發明涉及一種垃圾評論過濾技術,特別涉及一種基于文本多向量表示相互學習的垃圾評論過濾方法。
背景技術
隨著電子商務的快速發展,各大電商及相關領域的在線用戶評論數量急劇增加,而這些評論也是人們購物時的重要參考信息。簡而言之,積極的評論會促進消費者的購買意向,而消極的評論很大程度上會增加消費者的疑慮。因此,網絡上出現了大量的組織和個人利用評論弄虛作假,制造垃圾評論混淆視聽,誤導用戶。雖然多數的網站會在評論內容上設置是否“有幫助”或“有用”的投票機制,但實際投票記錄卻很少。因此,過濾垃圾評論,凈化網絡環境,為用戶提供一個真實可信的信息獲取途徑就尤為重要。
目前,垃圾評論過濾的方法主要分類兩大類,一種是基于詞典的過濾方法,一種是基于機器學習的過濾方法。基于詞典的過濾方法主要是通過指定一系列的信賴詞典和規則,對評論文本進行段落拆解、句法分析,計算信賴值,最后通過信賴值來作為判斷依據。而基于機器學習的過濾方法則是將垃圾評論過濾作為一個分類過程來看待。正常評論和垃圾評論即為目標類別,對評論的文本內容進行結構化處理,輸入到給定分類算法中進行訓練,從而得到一個分類器,并對待過濾的評論文本數據用分類器來預測結果。
兩種方法都有面臨一個問題,就是人工標注的工作量太大。對于基于詞典的方法而言,詞典的重要性太突出了。可以說,過濾效果很大程度取決于詞典的合理性,而詞典的建立又需要太大的人力成本。雖然基于機器學習的方法需要的人力成本會比較少,但若是希望有良好的效果,同樣需要大量的人工標注數據,而傳統的半監督學習方法表現效果又不盡如人意。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提供一種基于文本多向量表示相互學習的垃圾評論過濾方法,該方法是一種半監督學習方法,借鑒了協同訓練算法,讓不同向量表示的分類器間進行相互學習,既達到了數據標注的目的,又提高了分類器的性能。
為了達到上述目的,本發明采用以下技術方案:
本發明的一種基于文本多向量表示相互學習的垃圾評論過濾方法,包括下述步驟:
S1:獲取電商網站的評論數據,并將獲得的評論數據分為訓練集和添加集;其中,訓練集用于建立分類器,添加集用于加強訓練集訓練出的分類器;
S2:對所有的評論數據都進行預處理:先刪除數據中的噪聲數據,然后對除噪后的數據進行中文分詞,最后將分詞結果中的停用詞過濾掉;
S3:使用n種不同的方法將訓練集中的同一文本映射為n種不同的空間向量,即用多種不同的向量表示;
S4:使用一種分類器的訓練方法,利用某種形式文本向量訓練得到一個分類器Cn;
S5:利用分類器Cn對添加集中未標注的文本進行標注;
S6:從添加集中未標注的文本中選擇分類器Cn預測的分數得分最高的2k個文本En放入總樣本集合E中,選取時需要注意正負樣本平衡的問題,選取k個正樣本和k個負樣本;若樣本已經在E中,則跳過該樣本選取下一個樣本;
S7:重復S4-S6步驟n次,每次使用的分類器訓練方法一樣,而文本向量化的方法不一樣;
S8:對選取的總樣本集合E進行處理,若樣本得分低于預設閾值,則直接丟棄該樣本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810053433.1/2.html,轉載請聲明來源鉆瓜專利網。





