[發明專利]一種面向即時交互文本的事件識別與跟蹤方法無效
| 申請號: | 201110312540.X | 申請日: | 2011-10-15 |
| 公開(公告)號: | CN102411611A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 田鋒;鄭慶華;張惠三 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 即時 交互 文本 事件 識別 跟蹤 方法 | ||
技術領域
本發明涉及一種信息檢索、抽取與管理以及自然語言處理技術,特別是涉及一種面向在線即時交互文本的事件識別與跟蹤。?
背景技術
隨著互聯網技術應用的日趨廣泛,基于交互式文本的網絡應用不斷發展,已經成為人們獲取和發布信息的主要手段之一,例如網絡聊天室、微博等典型的交互文本應用。這些文本中蘊含著大量豐富的信息資源,如何實現對這些交互文本應用中發生的事件按主題類別查找、組織和利用,成為當務之急。比如自動識別網絡學習者的情感變化事件,從而調節其學習效率;識別各種社會敏感的突發事件或者新事件等。申請人經過查新,未檢索本發明相關的專利。但是找相似的幾篇文章,分別是:?
1)基于頻繁模式的消息文本聚類研究。胡吉祥,中國科學院研究生院(計算技術研究所)。?
2)用于聊天詞匯的權重計算方法CDTF_IDF。高鵬,曹先彬,計算機仿真,2007.12。?
文章1)的作者發現了頻繁模式(稱之為關鍵頻繁模式)包含了詞序和鄰近上下文等更多的語義信息對交互文本特征抽取的關鍵性,提出了一種無指導的基于頻繁模式的特征選擇算法,應用于文本分類和聚類。?
文章2)主要針對聊天室的內容監控應用,通過分別離線計算詞匯在不同數據源中的權值并匯總、并對重點詞匯提高權重等方式來計算聊天數據的詞匯權重,從而達到識別聊天室主題的目的。?
根據上述查新,現有相似技術與本發明方法主要有以下幾方面的不同:?
1.現有技術的研究對象為以整個新聞(事件)或者段落,而本方法針對話輪級別。?
2.現有技術為離線主題識別方法,而本方法為在線事件識別方法。?
3.現有技術識別的結果僅為整個新聞(事件)或段落是否屬于哪一類主題,以及相關的新聞(事件)發生,即主題級的識別與跟蹤;而本方法主要是發現在線交互雙方討論的事件是否一致,該事件是否完整(開始?和結束),參與的人有那些,即對單一、具體事件的識別與跟蹤。?
4.在交互文本的特征表示方面,現有技術離線收集僅為當前新聞(事件)的詞頻特征進行計算,而本方法發現了時間依賴特性,引入時間閾值內的所有話輪特征的聚集來進行主題分類。?
5.現有方法以無監督的概率潛在語義分析方法為主,而本方法針對主題的分層模型,提出了有監督的、分層PLSA主題模型訓練方法,并定時更新主題模型。?
發明內容
針對前述相關技術與本發明比較中所存在的問題,本發明提供了一種面向在線即時交互文本的事件識別與跟蹤方法,包括如下步驟:?
第一步:話輪級主題類別分類階段:?
(1)在即時交互文本中,以用戶一次輸入的發言Speech為一個話輪Turn,用五元組表示為:?
Ti=(i,id,role,stamp,content)?
其中,Ti表示第i個話輪,且i∈Z,Z是正整數集合;id表示區分說話人的唯一標示符;role表示說話人的角色,它分兩個類別:說話人Speaker和接受者recipient;stamp表示話輪發生的時間戳;content表示一次話輪中發言的所有文本;?
那么Ti.stamp就表示第i個話輪發生的時間,Ti.content就表示第i個話輪的內容,所述的交互文本是來自于同一個聊天室或者討論群組內的話輪;?
(2)對當前話輪Ti的內容Ti.content進行文本預處理,按照特征詞典提取其中的特征詞,計算語言特征向量?其中wih,0<h≤n表示第h個特征詞在Ti.content中出現的次數,n表示特征詞的個數;所述的特征詞典,是從訓練數據中提取的;?
(3)如果話輪Ti是系統中出現的首次話輪,也即T1,轉到(5);否則,執行(4);?
(4)計算話輪Ti的自適應語言特征聚集向量?
其中?0<h′≤n表示第h′個特征詞在該語言特征聚集中出現的次數,n表示特征詞的個數;?
(5)利用有監督分層概率潛在語義分析模型進行話輪級主題類別分類;?
第二步,話輪級事件識別與跟蹤階段:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110312540.X/2.html,轉載請聲明來源鉆瓜專利網。





