[發明專利]一種文本情感分析特征驗證的前置處理方法在審
| 申請號: | 201611195601.8 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN108228655A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 青島祥智電子技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266100 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預處理信息 特征驗證 原始訓練集 前置處理 情感分析 文本情感 通用性和可擴展性 預處理 特征向量集 準確度 分析信息 特征向量 特征選擇 原始數據 訓練集 建模 算法 整合 分析 評估 | ||
1.一種文本情感分析特征驗證的前置處理方法,其特征在于:包括如下步驟:
步驟一、對原始訓練集的預處理得到預處理信息:
S1、確定原始訓練集的概要,并輸出結果sample_struct,包括:樣本總體數量參數sample_size、情感分類的分布參數sample_dist和文本信息分布內容參數sample_text_info;
S2、輸入待驗證的特征向量集,確定原特征向量集的概要,并輸出結果vector_struct,包括:多標號參數vector_multi、硬性柔性參數vector_prop和特征向量的維度參數vector_dimen;
S3、對原始數據進行擴充,并輸出結果addtion_sets:包括:
(1)若特征向量的維度參數vector_dimen是低維的且不包含詞頻信息,則構建基于詞袋模型的特征向量,對低維度的特征向量進行補充,得到詞頻信息補充結果tf_addition_set;
(2)若情感分類的分布參數sample_dist分布不均衡,則對訓練集進行均衡化處理,得到均衡化處理結果even_addition_set;
S4、構造出整合后的預處理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集屬性vector_struct、訓練集屬性sample_struct;
步驟二、對預處理信息進行特征驗證和特征選擇:
S1、對于原始特征向量集:根據sample_size值和vector_dimen值,在同時進行基于交叉驗證做判斷標準的特征選擇和基于bootstrap來驗證分類準確率兩種處理之后,對處理結果乘以不同的權重;
S2、對于參考向量集:逐個特征向量集采用通用的InfoGain選擇出代表性的特征項;采用類bagging算法構建向量集,對向量集中的每個向量通過多數投票的方式確定理論推算的分類值,再通過向量集的推算分類值與訓練集的實際分類值的差距獲得訓練集信息。
2.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:對于情感分析樣本,當各有效分類的不重復樣本數在1000以上時,則視為樣本總體數量夠大。
3.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:文本信息分布內容參數sample_text_info包括:字數、句數和段數。
4.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:構建基于詞袋模型的特征向量的方法是:基于情感詞典生成詞袋特征向量,每項特征值是詞頻與情感值之積;基于TFIDF提取出的詞典生成詞袋特征向量;對添加的新特征采用加權平均KL散度進行降維處理。
5.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:對訓練集進行均衡化處理的方法為:通過重復選取偏少類型或者減少偏多類型的方式進行均衡化處理,之后重新按照給定的情感分析算法生成參考向量集。
6.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:在對原始數據進行擴充時,在模型中保留擴展空間,允許自行添加生成附加向量集custom_addition_set。
7.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:在進行基于交叉驗證做判斷標準的特征選擇處理時,對大規模樣本,使用InfoGain和DF算法相結合的方式進行。
8.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:在進行基于bootstrap來驗證分類準確率處理時,對小規模樣本,用于對比的參考向量集通過修改原始算法進行逐特征刪減,采用卡方檢驗判斷生成的分類結果之間是否存在顯著性差異,從而判斷單特征項的可用性。
9.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:所述類bagging算法是指:設向量集為下標從1到n,則向量集為D1到Dn,則每個向量集中的元素都對應于原始訓練集中的一項,設原始訓練集共m項,第i項對應的分類為Ci,在向量集Dj的分類為Cij,則構建向量集如下:
(1,C11,C12…C1j…C1n,C1),
…
(i,Ci1…Cij…Cin,Ci),
…
(m,Cm1…Cmj…Cmn,Cm)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島祥智電子技術有限公司,未經青島祥智電子技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611195601.8/1.html,轉載請聲明來源鉆瓜專利網。





