[發(fā)明專利]一種基于Word2Vec與詞共現(xiàn)相結(jié)合的文本關(guān)鍵詞抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710605900.2 | 申請(qǐng)日: | 2017-07-24 |
| 公開(kāi)(公告)號(hào): | CN107562717B | 公開(kāi)(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 李曉飛;劉佳雯;韓光 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/284;G06K9/62 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 朱楨榮 |
| 地址: | 210000 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 word2vec 詞共現(xiàn) 相結(jié)合 文本 關(guān)鍵詞 抽取 方法 | ||
本發(fā)明公開(kāi)了一種基于Word2Vec與詞共現(xiàn)相結(jié)合的文本關(guān)鍵詞抽取方法,采用ICTCLAS分詞系統(tǒng)對(duì)文本進(jìn)行分詞和詞性標(biāo)注得到詞匯集合;然后對(duì)詞匯集合進(jìn)行預(yù)處理,將不合理的詞匯組合過(guò)濾,得到初步候選集;將初步候選集放置到訓(xùn)練好的Word2Vec模型中得到詞向量表,計(jì)算詞向量表中詞向量間的距離,對(duì)初步候選集進(jìn)行kmeans聚類得到關(guān)鍵詞的二次候選集,根據(jù)詞向量距離得到二次候選集在初步候選集中的詞共現(xiàn)率;不同詞匯長(zhǎng)度賦予不同的權(quán)值,根據(jù)詞共現(xiàn)率、詞匯長(zhǎng)度得到相應(yīng)的權(quán)重,根據(jù)權(quán)重排序,排名靠前的m個(gè)即為最終的關(guān)鍵詞。本發(fā)明采用Word2Vec生成的詞向量進(jìn)行聚類,再結(jié)合詞共現(xiàn)等基本特征提取文本關(guān)鍵詞,提取的關(guān)鍵詞更準(zhǔn)確,可以適應(yīng)不同文本的關(guān)鍵詞抽取。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別是一種基于Word2Vec與詞共現(xiàn)相結(jié)合的文本關(guān)鍵詞抽取方法。
背景技術(shù)
關(guān)鍵詞提取就是從文本中把跟這篇文章意義最相關(guān)的一些詞匯抽取出來(lái)。這些詞匯也可以極大的概括文章的主要內(nèi)容和中心思想。作者在寫論文時(shí)一般都要求提供若干關(guān)鍵詞,這樣可以極大的方便讀者來(lái)確定該論文是否為所需要的論文,達(dá)到預(yù)覽的效果。
傳統(tǒng)的關(guān)鍵詞標(biāo)注,主要是通過(guò)人工完成。一般是邀請(qǐng)領(lǐng)域?qū)<覍?duì)一些特定文檔進(jìn)行閱讀,然后根據(jù)文本內(nèi)容,選取一些詞作為關(guān)鍵詞。這樣做的好處是,關(guān)鍵詞的精確性比較髙,一般與文章內(nèi)容非常契合,具有很強(qiáng)的代表性。但是人工標(biāo)注的一個(gè)主要問(wèn)題是效率太低,傳統(tǒng)文本量下,可以采用人工標(biāo)注,但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)爆炸式增長(zhǎng),人工標(biāo)注無(wú)法有效應(yīng)對(duì)如此巨量的數(shù)據(jù),使用計(jì)算機(jī)進(jìn)行自動(dòng)關(guān)鍵詞抽取成為了主流選擇。
關(guān)鍵詞抽取算法的不斷發(fā)展,使得關(guān)鍵詞自動(dòng)標(biāo)注的準(zhǔn)確率不斷提高,但是這與人工關(guān)鍵詞自動(dòng)標(biāo)注相比,依舊顯得過(guò)低。已有的一些研巧表明,準(zhǔn)確率和召回率評(píng)價(jià)上,一般只有30%-40%,這使得如何進(jìn)一步提高關(guān)鍵詞抽取的效果,成為十分有意義的研究議題。
早期的關(guān)鍵詞提取算法使用詞頻、詞性、詞在文章中位置等屬性來(lái)表示詞匯,然后根據(jù)某個(gè)規(guī)則計(jì)算出每個(gè)詞的得分,選擇得分高的詞作為關(guān)鍵詞,效果并不理想。除了基于得分的關(guān)鍵詞提取方法之外,還有一類是基于機(jī)器學(xué)習(xí)的關(guān)鍵詞提取方法。相對(duì)于基于得分的方法而言,這些方法雖然利用了數(shù)據(jù)集中的信息,但是并沒(méi)有改變?cè)~的表示方式。其中詞的特征仍然是詞的詞性、詞頻等,這種表示方式忽略了詞匯之間的語(yǔ)義聯(lián)系,比如同義詞、反義詞等。因此不論是聚類還是分類過(guò)程中,詞匯的特征并不能給出關(guān)于詞匯語(yǔ)義充分信息,所以這些關(guān)鍵詞提取算法的準(zhǔn)確率并不理想。
綜上,傳統(tǒng)的關(guān)鍵詞抽取方法存在關(guān)鍵詞抽取的效果不佳、關(guān)鍵詞抽取效率低的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是克服現(xiàn)有技術(shù)的不足而提供一種基于Word2Vec與詞共現(xiàn)相結(jié)合的文本關(guān)鍵詞抽取方法,本發(fā)明采用Word2Vec生成的詞向量進(jìn)行詞間相似度計(jì)算而后聚類,再結(jié)合詞共現(xiàn)等基本特征提取文本關(guān)鍵詞,所提取的關(guān)鍵詞更加準(zhǔn)確,可以較好適應(yīng)不同文本的關(guān)鍵詞抽取。
本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:
根據(jù)本發(fā)明提出的一種基于Word2Vec與詞共現(xiàn)相結(jié)合的文本關(guān)鍵詞抽取方法,包括以下步驟:
步驟A、將文本分為若干子句,對(duì)子句進(jìn)行分詞,同時(shí)進(jìn)行詞性標(biāo)注得到詞匯集合;
步驟B、對(duì)詞匯集合進(jìn)行預(yù)處理,具體如下:
掃描每個(gè)子句中的詞匯,對(duì)相連詞匯進(jìn)行掃描組合得到詞匯組合;
根據(jù)停用詞表,將虛詞和以虛詞為開(kāi)頭或結(jié)尾的詞匯組合進(jìn)行過(guò)濾,得到初步候選集D1;
步驟C、將初步候選集D1輸入到訓(xùn)練好的Word2Vec模型中,得到詞向量表;計(jì)算詞向量表中每個(gè)詞向量與其余詞向量的語(yǔ)義距離,采用該語(yǔ)義距離,對(duì)初步候選集D1進(jìn)行kmeans聚類;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710605900.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于word2vec?LDA模型的文本主題詞提取方法
- 一種基于數(shù)據(jù)特征降維編碼的流媒體內(nèi)容分發(fā)方法
- 一種基于用戶行為序列的個(gè)性化推薦系統(tǒng)召回方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)
- 一種基于用戶行為序列和數(shù)據(jù)融合的推薦系統(tǒng)召回方法及系統(tǒng)
- 動(dòng)態(tài)調(diào)整Word2Vec模型詞典的方法、裝置、介質(zhì)及電子設(shè)備
- 一種基于Word2Vec模型的WordNet中詞語(yǔ)相似度計(jì)算方法
- 一種基于word2vec技術(shù)的相似度比較方法及裝置
- 一種自動(dòng)發(fā)現(xiàn)音頻關(guān)鍵詞到分類映射關(guān)系的方法
- 一種面向模板基于Word2vec的日志異常檢測(cè)方法及裝置
- 一種word2vec模型訓(xùn)練、數(shù)據(jù)召回方法及裝置
- 用于修正和/或擴(kuò)展情感詞典的方法和裝置
- 生成共現(xiàn)關(guān)鍵詞的方法、提供關(guān)聯(lián)搜索詞的方法以及系統(tǒng)
- 一種對(duì)文本中關(guān)鍵詞重要性的排序方法
- 關(guān)聯(lián)數(shù)據(jù)生成裝置和關(guān)聯(lián)數(shù)據(jù)生成方法
- 話題名稱的提取方法及裝置
- 一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng)
- 一種基于多級(jí)共現(xiàn)關(guān)系詞圖的可視化文本信息發(fā)現(xiàn)方法及系統(tǒng)
- 一種網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)方法及系統(tǒng)
- GloVe詞向量模型增量訓(xùn)練方法、裝置、介質(zhì)及電子設(shè)備
- 一種發(fā)音的標(biāo)注方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





