[發(fā)明專利]一種單篇文本關(guān)鍵詞的提取方法無效
| 申請?zhí)枺?/td> | 201010290828.7 | 申請日: | 2010-09-21 |
| 公開(公告)號: | CN101968801A | 公開(公告)日: | 2011-02-09 |
| 發(fā)明(設(shè)計)人: | 駱祥峰;梁國寧;殷曉波;張順香;徐煒民 | 申請(專利權(quán))人: | 上海大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海上大專利事務(wù)所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 單篇 文本 關(guān)鍵詞 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種單篇文本關(guān)鍵詞的提取方法,具體是涉及一種對TFIDF方法提取領(lǐng)域文集中單篇文本關(guān)鍵詞的改進方法。
背景技術(shù)
單篇文本關(guān)鍵詞是文本知識流生成、語義鏈網(wǎng)絡(luò)構(gòu)建、文本語境復(fù)雜度和信息量中文本表示的基本元素。單篇文本關(guān)鍵詞的提取精度直接影響到文本分類、聚類、詞語關(guān)聯(lián)分析、文本自動摘要、文本過濾、信息檢索、話題檢測、標(biāo)注網(wǎng)頁等文本信息處理的質(zhì)量與效果。目前對單篇文本關(guān)鍵詞提取技術(shù)的研究主要有:TFIDF方法、樸素貝葉斯分類法、互信息方法、最大熵模型法、最大似然性和前綴樹法等。
目前應(yīng)用最廣的單篇文本關(guān)鍵詞的提取方法是TFIDF方法。TFIDF方法認(rèn)為,單篇文本的關(guān)鍵詞應(yīng)該在文本中經(jīng)常出現(xiàn),并且在其他文集中很少出現(xiàn)。TFIDF方法用詞權(quán)公式計算一個詞對于文集中的單篇文本的重要程度。TFIDF方法的詞權(quán)就是詞頻TF(Term?Frequency)與逆文檔頻率IDF(Inverse?Document?Frequency)的乘積。TFIDF詞權(quán)公式如下:
TFIDFt=TFt×IDFt=TFt×log(N/nt)
其中,TFt為詞t的詞頻,也就是詞t在文本中出現(xiàn)的次數(shù)。IDFt為詞t的逆文檔頻率,它通過log(N/nt)計算;N為文集的文本總數(shù);nt為詞t的篇頻,也就是文集中包含詞t的文本數(shù)。詞的逆文檔頻率與篇頻成反比,篇頻越高則逆文檔頻率越低。所以,通過檢驗詞的逆文檔頻率可以過濾掉那些在文集里最普遍出現(xiàn)的高篇頻詞。
但是用TFIDF方法提取領(lǐng)域文集中的單篇文本關(guān)鍵詞時,存在以下不足:
(1)TFIDF方法中無關(guān)領(lǐng)域文集涉及的領(lǐng)域和文本總數(shù)會降低單篇文本關(guān)鍵詞的提取質(zhì)量。
(2)由于詞的逆文檔頻率與詞在文集中出現(xiàn)的篇頻成反比,TFIDF詞權(quán)會傾向于低篇頻詞,導(dǎo)致單篇文本關(guān)鍵詞的提取精度降低。
(3)當(dāng)領(lǐng)域文集屬于單一領(lǐng)域時,一些代表領(lǐng)域整體的高篇頻也會被過濾掉,最終關(guān)鍵詞提取結(jié)果只能保留文本特性而不能保持領(lǐng)域特性。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對TFIDF方法的不足,提供一種單篇文本關(guān)鍵詞的提取方法,該方法能避免無關(guān)領(lǐng)域文集對關(guān)鍵詞提取結(jié)果的影響,提高關(guān)鍵詞的提取精度,還能提高關(guān)鍵詞提取結(jié)果的領(lǐng)域特性。
為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下:采用搜索引擎輔助法提取單篇文本的關(guān)鍵詞,提高領(lǐng)域文集中單篇文本關(guān)鍵詞的提取精度,提高關(guān)鍵詞提取的領(lǐng)域特性;所述的搜索引擎輔助法是:通過搜索引擎檢驗詞的普遍性,再通過改進的TFIDF詞權(quán)公式提取關(guān)鍵詞。
根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案:
一種單篇文本關(guān)鍵詞的提取方法,其特征在于,其具體步驟如下:
(1)打開領(lǐng)域文集中的單篇文本;
(2)文本內(nèi)容預(yù)處理,包括分詞、詞性標(biāo)注;
(3)提取有意義的實詞;
(4)統(tǒng)計實詞的詞頻;
(5)打開領(lǐng)域文集的所有文本;
(6)統(tǒng)計實詞在領(lǐng)域文集中的篇頻;
(7)統(tǒng)計搜索引擎檢索實詞所返回的頁面數(shù);
(8)用改進的TFIDF詞權(quán)公式計算單篇文本所有實詞的權(quán)重,從中提取一定比例的關(guān)鍵詞。
所述的改進的TFIDF詞權(quán)公式,記為TFMIDF,其計算式如下:
TFMDFt=TFt×(α*DIDFt+(1-α)*SIDFt)
其中TFt是詞t在文本中出現(xiàn)的次數(shù);DIDFt是領(lǐng)域文集中的逆文檔頻率,SIDFt是利用搜索引擎計算的逆文檔頻率;α是用來調(diào)節(jié)原始DIDF與SIDF之間的權(quán)重;當(dāng)α=1時,TFNDFt=TFt×DIDFt,詞權(quán)賦值依賴領(lǐng)域文集數(shù);當(dāng)α=0時,TFMDFt=TFt×SIDFt,詞權(quán)賦值不依賴領(lǐng)域文集數(shù),提取關(guān)鍵詞直接面向單篇文本。
所述的領(lǐng)域文集中的逆文檔頻率,其計算公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學(xué),未經(jīng)上海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010290828.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種加工萬能孔的鉆具
- 下一篇:具有斷點功能的仿真器
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機設(shè)備





