[發明專利]一種單篇文本關鍵詞的提取方法無效
| 申請號: | 201010290828.7 | 申請日: | 2010-09-21 |
| 公開(公告)號: | CN101968801A | 公開(公告)日: | 2011-02-09 |
| 發明(設計)人: | 駱祥峰;梁國寧;殷曉波;張順香;徐煒民 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 單篇 文本 關鍵詞 提取 方法 | ||
1.一種單篇文本關鍵詞的提取方法,其特征在于,采用搜索引擎輔助法提取單篇文本的關鍵詞,提高領域文集中單篇文本關鍵詞的提取精度,提高關鍵詞提取的領域特性;所述的搜索引擎輔助法是:通過搜索引擎檢驗詞的普遍性,再通過改進的TFIDF詞權公式提取關鍵詞,其具體步驟如下:
(1)打開領域文集中的單篇文本;
(2)文本內容預處理,包括分詞、詞性標注;
(3)提取有意義的實詞;
(4)統計實詞的詞頻;
(5)打開領域文集的所有文本;
(6)統計實詞在領域文集中的篇頻;
(7)統計搜索引擎檢索實詞所返回的頁面數;
(8)用改進的TFIDF詞權公式計算單篇文本所有實詞的權重,從中提取一定比例的關鍵詞。
2.按權利要求1所述的一種單篇文本關鍵詞的提取方法,其特征在于,上述步驟(8)中所述的改進的TFIDF詞權公式,記為TFMIDF,其計算式如下:
TFMDFt=TFt×(α*DIDFt+(1-α)*SIDFt)
其中TFt是詞t在文本中出現的次數;DIDFt是領域文集中的逆文檔頻率,SIDFt是利用搜索引擎計算的逆文檔頻率;α是用來調節原始DIDF與SIDF之間的權重;當α=1時,TFMDFt=TFt×DIDFt,詞權賦值依賴領域文集數;當α=0時,TFMDFt=TFt×SIDFt,詞權賦值不依賴領域文集數,提取關鍵詞直接面向單篇文本。
3.按權利要求2所述的一種單篇文本關鍵詞的提取方法,其特征在于,所述的領域文集中的逆文檔頻率,其計算公式如下:
其中Nd是領域文集的文本總數,nt是領域文集中包含詞t的文本數。
4.按權利要求2所述的一種單篇文本關鍵詞的提取方法,其特征在于,所述的利用搜索引擎計算的逆文檔頻率,其計算公式如下:
其中Ns等價于搜索引擎的索引總頁面數,pt為一個檢索查到詞t的頁面數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010290828.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種加工萬能孔的鉆具
- 下一篇:具有斷點功能的仿真器





