[發明專利]一種用于中文新聞突發事件的文本分類與抽取方法有效
| 申請號: | 201811202156.2 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109299266B | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 滕輝;龍飛 | 申請(專利權)人: | 中國搜索信息科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9537 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 于國富 |
| 地址: | 100000 北京市大興*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抽取 突發事件 文本分類 預先定義事件 自然語言處理 分類準確率 詞匯詞性 基于事件 快速分析 內容信息 實例驅動 數據稀疏 新聞文本 信息缺失 輿情分析 傳統的 詞向量 短文本 貢獻度 中文 詞性 權重 算法 向量 失衡 文本 分類 融入 聯合 | ||
1.一種用于中文新聞突發事件的文本分類與抽取方法,其特征在于,主要包括以下步驟:
S1,利用爬蟲獲取多個新聞網站內容作為初始新聞數據集,記為新聞數據集S={s1,s2,...,sN},其中,si為新聞數據集中第i個新聞文本,i=1,2,...,N,N為新聞數據集新聞文本總數;
S2,對步驟S1中得到的新聞數據集S進行分類,得到分類好的新聞數據集
S3,對已經分類好的新聞數據集進行事件抽取;
步驟S2主要包括以下步驟:
S21,提取新聞數據集S中的第一個新聞文本s1的標題和正文,得到新聞文本s′1={t1,c1},其中t1為新聞文本s1的標題,c1為新聞文本s1的標題;
S22,遍歷新聞數據集S中的所有新聞文本,重復步驟S21,得到新聞數據集S′,其中,N為新聞數據集新聞文本總數;
S23,提取所述新聞數據集S'中的新聞文本s′1的特征向量,得到新聞數據集特征矩陣
S24,使用支持向量機分類器對步驟S23得到的新聞數據集特征矩陣進行分類,得到分類好的新聞數據集
步驟S23主要包括以下步驟:
S231,提取新聞數據集S'中的新聞文本s′1中標題t1的TF-IDF特征,得到特征向量a1,其中,ai為標題t1的TF-IDF特征值,i=1,2,...,m,m為新聞文本s′1標題t1的詞匯總數,η為根據標題t1中詞的詞性所分配的權重系數,滿足
S232,從上述特征向量a1中的選取2個最大特征值,記為a′1=[a′1,a′2]T,將2個最大特征值對應的詞匯記為
S233,提取新聞數據集S'中的新聞文本s′1中正文c1的TF-IDF特征,得到特征向量b1,其中,bi為正文c1的TF-IDF特征值,i=1,2,...,n,n為新聞文本s′1正文c1的詞匯總數,η為根據正文c1中詞的詞性所分配的權重系數,滿足
S234,從上述特征向量b1中的選取28個最大特征值,記為b′1=[b′1,b′2,...,b′28]-1,將28個最大特征值對應的詞匯記為
S235,將步驟S232中得到特征向量a1和步驟(2-3-4)中得到的特征向量b1拼接成為權值矩陣ω1:權重矩陣對應的詞匯表記為
S236,對步驟S235中得到的詞匯表V1采用Word2Vec模型進行特征提取,得到新聞文本s′1特征矩陣F30×M:F=[f1,f2,...,f30]T,其中fi為詞匯表V1中第i個詞的特征向量,M為特征向量維數,M取值為200;
S237,根據步驟S235得到的權值矩陣ω1和步驟S236得到的特征矩陣F30×M,按照如下公式得到新聞文本s′1特征向量F':
其中,ω1i*Fi為權值矩陣ω1第i行和特征矩陣F第i行哈達馬積;
S238,對上述步驟得到的特征向量F'進行歸一化,得到歸一化后的特征向量f,其中|f|為特征向量f的模;
S239,遍歷新聞數據集S'中的每一個新聞文本,重復上述步驟S231~S237,得到新聞數據集特征矩陣N為新聞數據集新聞文本總數;
步驟S3主要包括以下步驟:
S31,從分類好的新聞數據集選取第一類,對第一類中的不同新聞文本集合進行特征提取,構建候選事件集合
S32,利用支持向量機分類器對上述步驟S31得到的候選事件集合進行事件實例的識別,過濾掉非事件實例,得到事件實例集合Q;
S33,對上述步驟得到的事件實例集合Q進行初始聚類,得到k個聚類C={C1,C2,...,Ck},k為聚類的類別數;
S34,從上述步驟得到的聚類Ci(1≤i≤k)中任意選取一個事件實例作為初始聚類中心,得到k個聚類中心{o1,o2,...,ok};
S35,使用上述步驟得到的k個聚類中心{o1,o2,...,ok}作為k-medoids算法的聚類中心,通過聚類得到k個聚類{C′1,C′2,...,C′k},其中C′i(1≤i≤k)代表了新聞數據集中第i類下的不同事件集合;
S36,遍歷新聞數據集中的所有類,重復步驟S31~S35,得到所有的事件集合;
步驟S33中利用層次聚類算法進行初始聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國搜索信息科技股份有限公司,未經中國搜索信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811202156.2/1.html,轉載請聲明來源鉆瓜專利網。





