[發明專利]一種高效的文本區間熱詞查詢方法有效
| 申請號: | 201710059191.2 | 申請日: | 2017-01-23 |
| 公開(公告)號: | CN106874430B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 趙志洲;路暢;何震瀛;王曉陽;韓偉力 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高效 文本 區間 查詢 方法 | ||
本發明屬于電子信息技術領域,具體為高效的文本區間熱詞查詢方法。現有的熱詞提取算法一般面向挖掘任務,時間復雜度較高,難以直接應用于熱詞的在線查詢處理。本發明方法包括兩個階段:利用時間序列劃分和范圍查詢的思想,對原始文本數據
技術領域
本發明屬于信息檢索技術領域,具體涉及一種從文本數據中提取熱詞的方法。
背景技術
互聯網的普及和高速發展滿足了人們對信息獲取的需求。如何從海量Web文本數據中提取有價值的熱門話題成為人們關注的一個焦點問題。為了有效進行話題檢測和跟蹤(Topic detection and tracking,TDT),研究者開展了大量研究工作,其中從文本數據中提取熱詞成為當前研究的熱點問題之一。
在已有的熱詞提取的研究中,TF-IDF(Term Frequency-Inverse DocumentFrequency)用于詞權重計算,TF-IDF綜合考慮詞頻和反文檔頻率,弱化頻繁出現在多個文本中的詞的重要性。TF-PDF(TF-Proportional Document Frequency)方法綜合考慮詞頻和文檔頻率,將更高的權重賦予出現在多個文本中的詞。Chen算法在TF-PDF方法的基礎上,考慮詞頻隨時間的波動情況,并重新定義詞權重的計算方法。上述方法能夠有效提取與話題相關的詞,即滿足算法的有效性,但時間復雜度較高,當處理的文本數量龐大時,這些算法的時間消耗較高,因此難以直接應用于熱詞在線查詢問題。
為此,本發明對文本數據的區間熱詞在線查詢問題展開研究。我們認為,熱詞的在線查詢處理方法需要同時滿足兩個特性:(1)能夠有效提取與話題相關的詞,即在線查詢的有效性;(2)能夠快速獲得查詢時間范圍內的熱詞,即在線查詢的時效性。因此,設計同時滿足有效性和時效性的熱詞在線查詢方法依然是一個具有挑戰性的問題。針對上述方法時效性不足的缺點,本發明提出一種對文本數據的區間熱詞在線查詢處理算法(EHWE),該算法可以在已劃分的數據上進行快速區間查詢處理。與現有的面向挖掘的算法相比,EHWE算法能夠保證計算結果準確率的前提下,根據用戶指定的查詢時間范圍,降低提取熱詞的時間消耗,實現熱詞的在線查詢。
發明內容
本發明的目的是針對從文本數據中提取熱詞復雜度高,難以在大數據集上實際應用的不足,提出一種高效的文本區間熱詞查詢方法,以降低從文本數據中提取熱詞的復雜度,提升用戶體驗。
本方法提出的高效的文本區間熱詞查詢方法,利用時間序列劃分和范圍查詢的思想,對原始文本數據進行預處理,建立一種數據結構,并采用優化算法EHWE,使得從文本數據中提取熱詞的時間復雜度降低。主要貢獻包括:
1、本文提出文本區間熱詞的在線查詢處理問題,和面向挖掘的熱詞提取問題相比,更加關注在線查詢的兩個特性:有效性和時效性;
2、針對熱詞的在線查詢問題,提出EHWE算法,該算法能夠在保證計算結果準確率的前提下,降低了提取熱詞的時間復雜度;
3、理論分析已有算法和EHWE算法的時間復雜度,并在實際數據集上進行驗證。
首先對一些基本概念進行定義:
定義1.話題:話題被定義為一個特定事件或活動,它通常由多個相關聯的事件或活動組成和描述;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710059191.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種標準SQL轉換成全文檢索標準查詢的方法
- 下一篇:一種外部數據檢索裝置





