[發(fā)明專利]一種異常評論文本的確定方法及裝置有效
| 申請?zhí)枺?/td> | 201810255066.3 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108470065B | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設計)人: | 徐振中;肖依永;苑星龍 | 申請(專利權(quán))人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33 |
| 代理公司: | 北京超凡志成知識產(chǎn)權(quán)代理事務所(普通合伙) 11371 | 代理人: | 吳迪 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 異常 評論 文本 確定 方法 裝置 | ||
1.一種異常評論文本的確定方法,其特征在于,包括:
獲取待異常評論的多條評論文本;
計算所述多條評論文本中任意兩條評論文本之間的相似度;
基于所述相似度,對所述多條評論文本進行分類,得到分類評論文本集;
對于任一分類評論文本集,將該任一分類評論文本集對應的評論文本輸入預先訓練的情感模型,得到該任一分類評論文本集對應的情感分數(shù)集;
對各所述分類評論文本集對應的情感分數(shù)集進行驗證,獲取異常分類評論文本集,確定所述異常分類評論文本集中的所有評論文本為所述異常評論文本;
所述對各所述分類評論文本集對應的情感分數(shù)集進行驗證,獲取異常分類評論文本集,包括:
對各個所述分類評論文本集對應的情感分數(shù)集分別進行正態(tài)分布驗證,獲取不符合所述正態(tài)分布驗證結(jié)果的異常分類評論文本集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述多條評論文本中任意兩條評論文本之間的相似度,包括:
基于預設的相似度衡量模型,對任意一條評論文本進行向量轉(zhuǎn)換,得到該任意一條評論文本的評論向量;
計算任意兩個評論向量之間的相似度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述相似度,對所述多條評論文本進行分類,得到分類評論文本集,包括:
依據(jù)任意兩個評論向量之間的相似度,確定該任意兩個評論向量之間的向量距離;
按照所述向量距離對所述多條評論文本進行分類,得到分類評論文本集。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于預設的相似度衡量模型,對任意一條評論文本進行向量轉(zhuǎn)換之前,所述方法還包括:
對所述任意一條評論文本進行分詞處理;
過濾掉進行分詞處理后的所述任意一條評論文本中的停用詞,得到關鍵詞。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于預設的相似度衡量模型,對任意一條評論文本進行向量轉(zhuǎn)換,得到該任意一條評論文本的評論向量,包括:
對于任意一條評論文本,依次將該任意一條評論文本中的各關鍵詞轉(zhuǎn)換為對應的數(shù)字信息;
基于依次轉(zhuǎn)換得到的所述數(shù)字信息,生成該任意一條評論文本對應的評論向量。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述依據(jù)任意兩個評論向量之間的相似度,確定該任意兩個評論向量之間的向量距離,包括:
計算所述任意兩個評論向量的余弦相似度;
取所述余弦相似度的倒數(shù),記為所述任意兩個評論向量之間的所述向量距離。
7.一種異常評論文本的確定裝置,其特征在于,包括:
文本獲取模塊,用于獲取待異常評論的多條評論文本;
文本處理模塊,用于計算所述多條評論文本中任意兩條評論文本之間的相似度;以及,用于基于所述相似度,對所述多條評論文本進行分類,得到分類評論文本集;
文本執(zhí)行模塊,用于對于任一分類評論文本集,將該任一分類評論文本集對應的評論文本輸入預先訓練的情感模型,得到該任一分類評論文本集對應的情感分數(shù)集;
文本確認模塊,用于對各所述分類評論文本集對應的情感分數(shù)集進行驗證,獲取異常分類評論文本集,確定所述異常分類評論文本集中的所有評論文本為所述異常評論文本;
所述文本確認模塊,具體用于:
對各個分類評論文本集對應的情感分數(shù)集分別進行正態(tài)分布驗證,獲取不符合正態(tài)分布驗證結(jié)果的異常分類評論文本集。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文本處理模塊包括:
向量轉(zhuǎn)換模塊,用于基于預設的相似度衡量模型,對任意一條評論文本進行向量轉(zhuǎn)換,得到該任意一條評論文本的評論向量;
向量計算模塊,用于計算任意兩個評論向量之間的相似度。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述文本處理模塊還包括:
距離確定模塊,用于依據(jù)任意兩個評論向量之間的相似度,確定該任意兩個評論向量之間的向量距離;
文本分類模塊,用于按照所述向量距離對所述多條評論文本進行分類,得到分類評論文本集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學,未經(jīng)北京航空航天大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810255066.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





