[發明專利]一種基于互信息和關聯規則的文本特征提取方法有效
| 申請號: | 201710796425.1 | 申請日: | 2017-09-06 |
| 公開(公告)號: | CN107766323B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 朱全銀;嚴云洋;胡榮林;李翔;瞿學新;唐海波;趙陽;高陽;錢凱 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F16/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223005 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 互信 關聯 規則 文本 特征 提取 方法 | ||
本發明公開了一種基于互信息和關聯規則的文本特征提取方法,步驟為:首先以文本分詞、過濾停用詞以及2?Gram方法對文本訓練集預處理,其次,通過改進的互信息方法對預處理后的文本訓練集計算特征值,按特征值降序排列選取前m個詞,從而得到初始的文本特征集,采用FP?Growth計算預處理后的文本訓練集中詞的關聯規則,并以關聯規則去除初始文本特征集中冗余的特征,最后,結合關聯規則和One?hot方法對每個文本向量化表示。本發明避免了文本特征間的冗余及互信息方法缺點對提取文本特征的影響。
技術領域
本發明屬于自然語言處理的技術領域,特別涉及一種基于互信息和關聯規則的文本特征提取方法。
背景技術
隨著網絡信息的迅猛發展,信息處理已經成為人們獲取有用信息不可缺少的工具。九十年代以來,Internet以驚人的速度發展起來,它容納了海量的各種類型的原始信息,包括文本信息、聲音信息和圖像信息等。如何在紛繁蕪雜的文本中掌握最有效的信息始終是信息處理的一大目標。基于人工智能技術的文本分類系統能依據文本的語義將大量的文本自動分門別類,從而更好地幫助人們把握文本信息。文本自動分類系統是信息處理的重要研究方向,它是指在給定的分類體系下,根據文本的內容自動判別文本類別的過程。目前,各國學者利用統計分析,機器學習,數據挖掘等領域的方法對其進行處理,通過對文本信息進行基于內容的分類,自動生成便于用戶使用的文本分類系統,從而可以大大降低組織整理文檔耗費的人力資源,幫助用戶快速找到所需信息。因此,如何能夠有效地避免將噪聲特征納入機器學習流程,提高了文本分類的精度領域最重要的研究方向之一。
目前,常用的文本特征提取方法TF-IDF、信息增益、互信息、期望交叉熵和文本證據權等方法。然而目前常用的文本特征提取方法沒有考慮詞匯語義上重要性。為了解決這一問題,本發明提供了一種基于互信息和關聯規則的文本特征提取方法。
嚴云洋和朱全銀等人已有的研究基礎包括:嚴云洋,吳茜茵,杜靜,周靜波,劉以安.基于色彩和閃頻特征的視頻火焰檢測.計算機科學與探索,2014,08(10):1271-1279;SGao,J Yang,Y Yan.A novel multiphase active contour model for inhomogeneousimage segmentation.Multimedia Tools and Applications,2014,72(3):2321-2337;SGao,J Yang,Y Yan.A local modified chan–vese model for segmentinginhomogeneous multiphase images.International Journal of Imaging Systems andTechnology,2012,22(2):103-113;劉金嶺,嚴云洋.基于上下文的短信文本分類方法.計算機工程,2011,37(10):41-43;嚴云洋,高尚兵,郭志波,盛明超.基于視頻圖像的火災自動檢測.計算機應用研究,2008,25(4):1075-1078YYan,Z Guo,J Yang.Fast Feature ValueSearching for Face Detection.Computer and Information Science,2008,1(2):120-128;朱全銀,潘祿,劉文儒,等.Web科技新聞分類抽取算法[J].淮陰工學院學報,2015,24(5):18-24;李翔,朱全銀.聯合聚類和評分矩陣共享的協同過濾推薦[J].計算機科學與探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independentFeature Selection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of MobilePhone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling andDisturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全銀等人申請、公開與授權的相關專利:朱全銀,胡蓉靜,何蘇群,周培等.一種基于線性插補與自適應滑動窗口的商品價格分類方法.中國專利:ZL201110423015.5,2015.07.01;朱全銀,曹蘇群,嚴云洋,胡蓉靜等,一種基于二分數據修補與擾亂因子的商品價格分類方法.中國專利:ZL 201110422274.6,2013.01.02;朱全銀,尹永華,嚴云洋,曹蘇群等,一種基于神經網絡的多品種商品價格分類的數據預處理方法.中國專利:ZL201210325368.6;李翔,朱全銀,胡榮林,周泓.一種基于譜聚類的冷鏈物流配載智能推薦方法.中國專利公開號:CN105654267A,2016.06.08;曹蘇群,朱全銀,左曉明,高尚兵等人,一種用于模式分類的特征選擇方法.中國專利公開號:CN 103425994 A,2013.12.04;朱全銀,嚴云洋,李翔,張永軍等人,一種用于文本分類和圖像深度挖掘的科技情報獲取與推送方法.中國專利公開號:CN 104035997 A,2014.09.10;朱全銀,辛誠,李翔,許康等人,一種基于K means和LDA雙向驗證的網絡行為習慣聚類方法.中國專利公開號:CN106202480 A,2016.12.07。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710796425.1/2.html,轉載請聲明來源鉆瓜專利網。





