[發明專利]一種在線討論區話題檢測與跟蹤方法無效
| 申請號: | 200810239328.3 | 申請日: | 2008-12-10 |
| 公開(公告)號: | CN101751424A | 公開(公告)日: | 2010-06-23 |
| 發明(設計)人: | 胡衛明;朱明亮;吳偶 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L12/18 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 梁愛榮 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 在線 討論 話題 檢測 跟蹤 方法 | ||
1.一種在線討論區話題檢測與跟蹤方法,包括步驟:
步驟1:采用HTML解析模塊對討論區帖子進行預處理及線索重構;
步驟2:利用帖子和線索的信息度測量模塊對新輸入的帖子和相關線索進行信息度檢查,并對線索特征向量進行更新;
步驟3:對線索數據庫中的線索的內容文本進行分析;
步驟4:對線索數據庫中的線索的用戶行為進行分析;
步驟5:將線索的內容文本和用戶行為的分析結果進行融合,判斷線索的話題分類。
2.按照權利要求1所述的方法,其特征在于,討論區帖子預處理及線索重構,包括步驟:
步驟11:對新輸入的討論區帖子網頁進行HTML解析;
步驟12:對HTML解析后的帖子分析其各項屬性,包括:發帖時間、標題、發帖人、內容和線索結構信息;
步驟13:對帖子標題和內容進行詞法分析,以分解成單詞序列,刪除停詞;
步驟14:根據帖子的線索結構信息重構出討論區線索的集合。
3.按照權利要求1所述的方法,其特征在于,利用帖子和線索的信息度測量模塊對新輸入的帖子和相關線索進行信息度檢查,包括步驟:
步驟211:對于經過預處理的新輸入的每一個帖子,用帖子信息度測量器對其進行信息度檢查,輸出為有效線索或無效線索;
步驟212:在帖子信息度測量的基礎上,對于所有具有新帖子被輸入的線索進行信息度測量,輸出為有效線索或無效線索;
步驟213:對于判定為無效的線索,因其當前不包含足夠的有用信息,則將暫時忽略無效的線索。
4.按照權利要求1所述的方法,其特征在于,對線索特征向量進行更新,包括步驟:
步驟221:對于所有具有新帖子被輸入系統的線索,如果被信息度測量判定為有效,則使用位置加權方法更新該線索的詞匯頻率向量,同時更新全局的文檔頻率向量;詞匯頻率向量和文檔頻率向量總稱為線索的內容文本特征向量;
步驟222:對于所有具有新帖子被輸入系統的線索,如果被信息度測量判定為有效,則更新該線索的用戶頻率向量,同時更新全局的線索用戶頻率向量;用戶頻率向量和線索用戶頻率向量總稱為線索的用戶行為特征向量。
5.按照權利要求1所述的方法,其特征在于,線索的內容文本分析,包括步驟:
步驟31:對于所有已重構出的線索,使用詞匯頻率對倒排文檔頻率模型計算線索兩兩之間的內容文本相似度;
步驟32:對于每一個已重構出的線索,在所有比該線索創建時間早的線索中搜索出與該線索內容文本相似度最大的那個線索,并記錄這個最大的內容文本相似度的值。
6.按照權利要求1所述的方法,其特征在于,線索的用戶行為分析,包括步驟:
步驟41:對于所有已重構出的線索,使用用戶頻率對倒排線索用戶頻率模型計算所有已知的線索兩兩之間的用戶行為相似度;
步驟42:對于每一個已重構出的線索,在所有比該線索創建時間早的線索中搜索出與該線索用戶行為相似度最大的那個線索,并記錄這個最大的用戶行為相似度的值。
7.按照權利要求1所述的方法,其特征在于,將線索的內容文本和用戶行為的分析結果進行融合,判斷線索的話題分類,步驟是:
步驟51:對于所有已重構出的線索使用兩層融合判斷框架判斷出該線索是否與該線索之前的某線索屬于同一個話題、還是描述了一個新的話題;
步驟52:根據步驟51的結果顯示的話題關系,將系統中的線索形成若干個話題線索組,并作為運行結果輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810239328.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:三維模型動態定向設定、檢視、執行方法
- 下一篇:一種稿件查重的方法及系統





