[發明專利]海量文本中企業行為或事件的抽取方法在審
| 申請號: | 201611221430.1 | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN106611054A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 袁華;錢宇;鄧雄文;鄧文君 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 四川省成都市天策商標專利事務所51213 | 代理人: | 卞濤 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量 文本 企業 行為 事件 抽取 方法 | ||
技術領域
本發明屬于數據挖掘領域,特別涉及一種海量文本中企業行為或事件的抽取方法。
背景技術
隨著信息技術和計算機科學的飛速發展,社交媒體(又稱社會化媒體)展示出巨大的潛力,以微博為例,普通用戶可以在平臺上進行關注、點贊、分享、轉發等行為,而許多企業更是充分利用官方微博進行信息發布、營銷推廣、粉絲互動等,從海量數據中挖掘商業信息,從而制定出更好的商業策略,同時企業的官方微博也包含了企業的相關行為信息,這些行為信息同樣具有潛在的商業價值和應用研究價值,因此從海量數據中提取企業行為信息并將這些應用到商業領域是一件非常有意義的研究主題。
最近幾年,越來越多的企業利用社交媒體平臺發布、獲取信息,以及溝通、合作、建立關系,同時也有很多學者研究企業微博,然而,大多數學者關注于企業微博的商業價值、企業微博的營銷推廣對用戶的影響、以及影響企業營銷的因素;僅僅少數的學者通過數據挖掘提取企業行為,但是選擇分類方法效果并不理想。由于微博提供了豐富的、及時的企業微博信息,這也可用于研究企業微博信息與企業當前情況的影響關系,同時,這些組織的企業行為信息可以用于商業戰略制定、粉絲關系維系以及預測企業未來方向等,比如,趨勢預測、內容推薦等。
然而,在虛擬的社交媒體中確定企業事件,提取企業行為,仍然存在一些挑戰,主要包括以下兩個問題,第一,數據存在噪音、且形式種類多樣;第二,許多信息摻雜多個主題,分類器難以確定標簽。
發明內容
【要解決的技術問題】
本發明的目的是提供一種海量文本中企業行為或事件的抽取方法,以有效的從海量數據中提取企業的行為標簽。
【技術方案】
本發明是通過以下技術方案實現的。
本發明涉及一種海量文本中企業行為或事件的抽取方法,其包括以下步驟:
A、數據預處理
從網絡中獲取目標數據,并將這些數據內容進行預處理形成數據集;
B、詞表征
將預處理形成的數據集中的單詞映射到k維的空間向量中,k為預設的維度范圍;
C、事件向量計算
從預處理后的數據集中抽取動詞序列,計算所有動詞序列的平均詞向量,人工標注若干條種子標簽,計算同一標簽相同事件的平均種子向量;
D、事件提取分類
通過計算剩余數據集和事件向量的相似度來確定每一條微博數據記錄的分類。
作為一種優選的實施方式,所述步驟B將預處理后形成的數據集放入word2vec模型中訓練得到k維空間向量。
作為另一種優選的實施方式,所述步驟C中采用cosine相似度計算法計算剩余數據集和事件向量的相似度。
作為另一種優選的實施方式,所述步驟A中的預處理至少包括分詞處理和數據清理。
作為另一種優選的實施方式,所述分詞處理包括通過文本中的句號、問號和感嘆號進行文本切分。
作為另一種優選的實施方式,所述數據清理包括刪除一字詞、停用詞、以及刪除重復的記錄。
作為另一種優選的實施方式,所述步驟A中的目標數據采用爬蟲技術爬取得到。
下面將對本發明進行詳細說明。
企業的官方微博通過社交媒體平臺發布相關信息,這些企業的微博記錄大部分都包含了企業的事件。由于微博的140字的長度限制(現已取消),本發明假設每一條微博記錄最多包含一類事件,
即假設企業行為事件有n類,表示為
E={e1,e2,…,en}式(1)
在上述這些事件中,第i類事件都能被一組向量表示,即表示為
ei=(vi1,vi2,…,vim).式(2)
在本發明中,目標是提供一個能夠自動提取企業事件的模型框架,這些企業事件信息被隱含在企業的官方微博中,即表示為Weibo={weibo1,weibo2,…,weibol},因此,本發明需要解決的問題是,如何確定一篇新的微博文章weiboi屬于E中的哪一類行為事件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611221430.1/2.html,轉載請聲明來源鉆瓜專利網。





