日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種文本情感分析特征驗證的前置處理方法在審

專利信息
申請號: 201611195601.8 申請日: 2016-12-21
公開(公告)號: CN108228655A 公開(公告)日: 2018-06-29
發明(設計)人: 不公告發明人 申請(專利權)人: 青島祥智電子技術有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 暫無信息 代理人: 暫無信息
地址: 266100 山東省青島*** 國省代碼: 山東;37
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 預處理信息 特征驗證 原始訓練集 前置處理 情感分析 文本情感 通用性和可擴展性 預處理 特征向量集 準確度 分析信息 特征向量 特征選擇 原始數據 訓練集 建模 算法 整合 分析 評估
【權利要求書】:

1.一種文本情感分析特征驗證的前置處理方法,其特征在于:包括如下步驟:

步驟一、對原始訓練集的預處理得到預處理信息:

S1、確定原始訓練集的概要,并輸出結果sample_struct,包括:樣本總體數量參數sample_size、情感分類的分布參數sample_dist和文本信息分布內容參數sample_text_info;

S2、輸入待驗證的特征向量集,確定原特征向量集的概要,并輸出結果vector_struct,包括:多標號參數vector_multi、硬性柔性參數vector_prop和特征向量的維度參數vector_dimen;

S3、對原始數據進行擴充,并輸出結果addtion_sets:包括:

(1)若特征向量的維度參數vector_dimen是低維的且不包含詞頻信息,則構建基于詞袋模型的特征向量,對低維度的特征向量進行補充,得到詞頻信息補充結果tf_addition_set;

(2)若情感分類的分布參數sample_dist分布不均衡,則對訓練集進行均衡化處理,得到均衡化處理結果even_addition_set;

S4、構造出整合后的預處理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集屬性vector_struct、訓練集屬性sample_struct;

步驟二、對預處理信息進行特征驗證和特征選擇:

S1、對于原始特征向量集:根據sample_size值和vector_dimen值,在同時進行基于交叉驗證做判斷標準的特征選擇和基于bootstrap來驗證分類準確率兩種處理之后,對處理結果乘以不同的權重;

S2、對于參考向量集:逐個特征向量集采用通用的InfoGain選擇出代表性的特征項;采用類bagging算法構建向量集,對向量集中的每個向量通過多數投票的方式確定理論推算的分類值,再通過向量集的推算分類值與訓練集的實際分類值的差距獲得訓練集信息。

2.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:對于情感分析樣本,當各有效分類的不重復樣本數在1000以上時,則視為樣本總體數量夠大。

3.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:文本信息分布內容參數sample_text_info包括:字數、句數和段數。

4.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:構建基于詞袋模型的特征向量的方法是:基于情感詞典生成詞袋特征向量,每項特征值是詞頻與情感值之積;基于TFIDF提取出的詞典生成詞袋特征向量;對添加的新特征采用加權平均KL散度進行降維處理。

5.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:對訓練集進行均衡化處理的方法為:通過重復選取偏少類型或者減少偏多類型的方式進行均衡化處理,之后重新按照給定的情感分析算法生成參考向量集。

6.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:在對原始數據進行擴充時,在模型中保留擴展空間,允許自行添加生成附加向量集custom_addition_set。

7.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:在進行基于交叉驗證做判斷標準的特征選擇處理時,對大規模樣本,使用InfoGain和DF算法相結合的方式進行。

8.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:在進行基于bootstrap來驗證分類準確率處理時,對小規模樣本,用于對比的參考向量集通過修改原始算法進行逐特征刪減,采用卡方檢驗判斷生成的分類結果之間是否存在顯著性差異,從而判斷單特征項的可用性。

9.根據權利要求1所述的一種文本情感分析特征驗證的前置處理方法,其特征在于:所述類bagging算法是指:設向量集為下標從1到n,則向量集為D1到Dn,則每個向量集中的元素都對應于原始訓練集中的一項,設原始訓練集共m項,第i項對應的分類為Ci,在向量集Dj的分類為Cij,則構建向量集如下:

(1,C11,C12…C1j…C1n,C1),

(i,Ci1…Cij…Cin,Ci),

(m,Cm1…Cmj…Cmn,Cm)。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島祥智電子技術有限公司,未經青島祥智電子技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611195601.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 扒丝袜网www午夜一区二区三区| 国产精品一卡二卡在线观看| 少妇bbwbbwbbw高潮| 欧美日韩国产色综合一二三四| 亚洲欧美日韩综合在线| 亚洲欧美一区二区三区1000| 91视频一区二区三区| 欧美一区二区三区免费在线观看| 国产中文字幕一区二区三区| 亚洲精品国产精品国自产网站按摩| 亚洲视频精品一区| 欧美日韩精品影院| 精品一区电影国产| 久草精品一区| 99精品视频一区| 精品视频久| 99精品国产一区二区三区麻豆| 国产精品视频久久| 欧美精品在线观看视频| 少妇高潮大叫喷水| 国产第一区在线观看| 精品国产免费久久| 97久久精品人人做人人爽| 日韩欧美一区精品| 91麻豆精品国产91久久久更新资源速度超快 | 91午夜在线观看| 久久久综合香蕉尹人综合网| 免费视频拗女稀缺一区二区| 69精品久久| 国产经典一区二区三区| 午夜大片男女免费观看爽爽爽尤物 | 波多野结衣巨乳女教师| 国产精品久久久久久久久久嫩草| 久久国产精品-国产精品| 91麻豆精品国产91久久久无限制版| 国产精品一区二区不卡| 美女被羞羞网站视频软件| 亚洲无人区码一码二码三码| 久久久久国产亚洲| 国产精品久久久久久久龚玥菲| 精品国产一区二| 国产电影一区二区三区下载| 亚洲欧美日韩另类精品一区二区三区| 国产日韩一区二区三区| 久久人做人爽一区二区三区小说| 欧美一区二区色| 国产大片一区二区三区| 好吊色欧美一区二区三区视频 | 午夜爽爽视频| 99精品久久99久久久久| 99精品视频免费看| 国产一区在线视频观看| 欧美精品日韩一区| 美国三级日本三级久久99 | 精品少妇一区二区三区免费观看焕| 一区二区国产盗摄色噜噜| 亚洲欧美精品suv| 日韩三区三区一区区欧69国产| 日韩精品免费一区二区在线观看| 日韩精品一区三区| 精品国产乱码久久久久久图片| 99久久国产综合精品色伊| 国产999精品视频| 午夜精品影视| 欧美日韩综合一区| 日本一区二区免费电影| 农村妇女精品一区二区| 搡少妇在线视频中文字幕| 国内偷拍一区| 亚洲第一天堂久久| 香蕉久久国产| 亚洲国产精品二区| 国产麻豆精品久久| 精品一区电影国产| 国产999在线观看| 丝袜美腿诱惑一区二区| 久久一区二区三区视频| 日本精品一二三区| 亚洲欧美国产一区二区三区 | 一区二区国产精品| 99视频国产在线| 国产三级国产精品国产专区50|