[發(fā)明專利]一種用于中文新聞突發(fā)事件的文本分類與抽取方法有效
| 申請?zhí)枺?/td> | 201811202156.2 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109299266B | 公開(公告)日: | 2019-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 滕輝;龍飛 | 申請(專利權(quán))人: | 中國搜索信息科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9537 |
| 代理公司: | 北京市盛峰律師事務(wù)所 11337 | 代理人: | 于國富 |
| 地址: | 100000 北京市大興*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抽取 突發(fā)事件 文本分類 預(yù)先定義事件 自然語言處理 分類準(zhǔn)確率 詞匯詞性 基于事件 快速分析 內(nèi)容信息 實(shí)例驅(qū)動(dòng) 數(shù)據(jù)稀疏 新聞文本 信息缺失 輿情分析 傳統(tǒng)的 詞向量 短文本 貢獻(xiàn)度 中文 詞性 權(quán)重 算法 向量 失衡 文本 分類 融入 聯(lián)合 | ||
本發(fā)明公開了一種用于中文新聞突發(fā)事件的文本分類與抽取方法,屬于自然語言處理領(lǐng)域。本發(fā)明針對新聞文本分類,采用了基于對標(biāo)題和內(nèi)容信息的聯(lián)合表征,并將詞性對文本分類的貢獻(xiàn)度融入到傳統(tǒng)的TF?IDF算法中,并作為Word2Vec詞向量的權(quán)重進(jìn)一步生成短文本向量,從而避免了因單一利用標(biāo)題或內(nèi)容引起的信息缺失和文本詞匯詞性重要性不同而導(dǎo)致的分類準(zhǔn)確率降低的問題;最后,采用基于事件實(shí)例驅(qū)動(dòng)的新聞突發(fā)事件的抽取方法抽取事件實(shí)例,不僅克服了正反例失衡以及數(shù)據(jù)稀疏問題,而且解決了預(yù)先定義事件類別的局限性,實(shí)現(xiàn)了事件抽取,方便新聞工作人員、輿情分析人員進(jìn)一步利用事件抽取結(jié)果快速分析新聞。
技術(shù)領(lǐng)域
本發(fā)明涉及自然事件處理領(lǐng)域,尤其涉及一種用于中文新聞突發(fā)事件的文本分類與抽取方法。
背景技術(shù)
近年來,網(wǎng)絡(luò)新聞快速發(fā)展,相比于傳統(tǒng)媒體新聞,網(wǎng)絡(luò)新聞更加快速、靈活且便捷,網(wǎng)絡(luò)新聞也日漸成為人們獲取新聞資訊的一種最普遍方式。利用文本分類技術(shù)自動(dòng)地對大量新聞進(jìn)行快速的分類,以及在保證原始新聞主要內(nèi)容的前提下,如何有效的抽取新聞中的事件,是當(dāng)前研究的主要困難。新聞文本分類以及事件提取在信息提取領(lǐng)域一直是極具挑戰(zhàn)性的問題,涉及自然語言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科的技術(shù)和方法,在自動(dòng)摘要、信息檢索等領(lǐng)域有著廣泛的需求和應(yīng)用前景。首先,利用向量空間模型,對新聞標(biāo)題以及內(nèi)容進(jìn)行向量量化表示,構(gòu)建特征矩陣,利用基于余弦相似度和機(jī)器學(xué)習(xí)分類器對新聞進(jìn)行分類。進(jìn)一步,利用事件抽取算法對已經(jīng)分類好的數(shù)據(jù)集進(jìn)行事件提取。
現(xiàn)有的技術(shù)文獻(xiàn)中,發(fā)明專利“一種基于文體和詞表的突發(fā)事件信息抽取方法及系統(tǒng)”,公開號為201711343022.8,采用詞表進(jìn)行事件分類,采用文體特征進(jìn)行時(shí)間、事件摘要的抽取。這種基于觸發(fā)詞和事件元素的匹配方法依賴于具體領(lǐng)域及文本格式,且基于觸發(fā)詞的事件抽取方法會(huì)引入大量的反例,造成正反例失衡且在語料庫規(guī)模較小時(shí)存在一定的數(shù)據(jù)稀疏。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用于中文新聞突發(fā)事件的文本分類與抽取方法,在對新聞文本進(jìn)行分類的基礎(chǔ)上,利用基于事件實(shí)例驅(qū)動(dòng)的事件抽取方法,對新聞進(jìn)行事件抽取,從而解決現(xiàn)有技術(shù)中存在的前述問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種用于中文新聞突發(fā)事件的文本分類與抽取方法,主要包括以下步驟:
S1,利用爬蟲獲取多個(gè)新聞網(wǎng)站內(nèi)容作為初始新聞數(shù)據(jù)集,記為新聞數(shù)據(jù)集S={s1,s2,...,sN},其中,si為新聞數(shù)據(jù)集中第i個(gè)新聞文本,i=1,2,...,N,N為新聞數(shù)據(jù)集新聞文本總數(shù);
S2,對步驟S1中得到的新聞數(shù)據(jù)集S進(jìn)行分類,得到分類好的新聞數(shù)據(jù)集
S3,對已經(jīng)分類好的新聞數(shù)據(jù)集進(jìn)行事件抽取。
優(yōu)選地,步驟S2主要包括以下步驟:
S21,提取新聞數(shù)據(jù)集S中的第一個(gè)新聞文本s1的標(biāo)題和正文,得到新聞文本s′1={t1,c1},其中t1為新聞文本s1的標(biāo)題,c1為新聞文本s1的標(biāo)題;
S22,遍歷新聞數(shù)據(jù)集S中的所有新聞文本,重復(fù)步驟S21,得到新聞數(shù)據(jù)集S′,其中,N為新聞數(shù)據(jù)集新聞文本總數(shù);
S23,提取所述新聞數(shù)據(jù)集S′中的新聞文本s′1的特征向量,得到新聞數(shù)據(jù)集特征矩陣
S24,使用支持向量機(jī)分類器對步驟S23得到的新聞數(shù)據(jù)集特征矩陣進(jìn)行分類,得到分類好的新聞數(shù)據(jù)集
優(yōu)選地,步驟S23主要包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國搜索信息科技股份有限公司,未經(jīng)中國搜索信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811202156.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 突發(fā)事件解除判定系統(tǒng)
- 交通信息系統(tǒng)及交通信息處理方法
- 突發(fā)事件下鐵路行車調(diào)整系統(tǒng)
- 一種電力突發(fā)事件案例適配決策方法
- 突發(fā)事件的應(yīng)急處理方案獲取方法及裝置
- 一種突發(fā)事件報(bào)事方法及裝置
- 一種突發(fā)事件處理方法、系統(tǒng)和存儲介質(zhì)
- 一種突發(fā)事件的響應(yīng)方法、裝置、存儲介質(zhì)及設(shè)備
- 突發(fā)事件本體模型構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于突發(fā)火災(zāi)事件相似度計(jì)算的城市應(yīng)急消防優(yōu)化方法
- 操作管理方法和操作管理服務(wù)器
- 視頻信息處理方法、系統(tǒng)及服務(wù)器
- 用于促進(jìn)推廣事件的系統(tǒng)和方法
- 一種虛擬化網(wǎng)絡(luò)應(yīng)用功能單元VNF伸縮管理方法及裝置
- 一種用于消息傳遞的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品
- 一種安全監(jiān)控方法及系統(tǒng)
- 事件狀態(tài)監(jiān)測方法、事件狀態(tài)監(jiān)測器
- 交通事件預(yù)測方法、裝置及終端設(shè)備
- 收集vue框架中事件數(shù)據(jù)的方法、裝置、設(shè)備及存儲介質(zhì)
- 運(yùn)行清潔系統(tǒng)的方法





