[發明專利]一種面向即時交互文本的事件識別與跟蹤方法無效
| 申請號: | 201110312540.X | 申請日: | 2011-10-15 |
| 公開(公告)號: | CN102411611A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 田鋒;鄭慶華;張惠三 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 即時 交互 文本 事件 識別 跟蹤 方法 | ||
1.一種面向即時交互文本的事件識別與跟蹤方法,其特征在于:包括如下步驟:
第一步:話輪級主題類別分類階段:
(1)在即時交互文本中,以用戶一次輸入的發言Speech為一個話輪Turn,用五元組表示為:
Ti=(i,id,role,stamp,content)
其中,Ti表示第i個話輪,且i∈Z,Z是正整數集合;id表示區分說話人的唯一標示符;role表示說話人的角色,它分兩個類別:說話人Speaker和接受者recipient;stamp表示話輪發生的時間戳;content表示一次話輪中發言的所有文本;
那么Ti.stamp就表示第i個話輪發生的時間,Ti.content就表示第i個話輪的內容,所述的交互文本是來自于同一個聊天室或者討論群組內的話輪;
(2)對當前話輪Ti的內容Ti.content進行文本預處理,按照特征詞典提取其中的特征詞,計算語言特征向量?其中wih,0<h≤n表示第h個特征詞在Ti.content中出現的次數,n表示特征詞的個數;所述的特征詞典,是從訓練數據中提取的;
(3)如果話輪Ti是系統中出現的首次話輪,也即T1,轉到(5);否則,執行(4);
(4)計算話輪Ti的自適應語言特征聚集向量
其中?0<h′≤n表示第h′個特征詞在該語言特征聚集中出現的次數,n表示特征詞的個數;
(5)利用有監督分層概率潛在語義分析模型進行話輪級主題類別分類;
第二步,話輪級事件識別與跟蹤階段:
(1)依據話輪所屬主題類別,前后話輪發生的時間差以及前后話輪說話人在社會網絡級上的緊度來判斷當前話輪Ti是否是事件的開始、延續與結束;
(2)如果話輪Ti是事件結束語句,也就是形成了一個完整的事件,那么標記Ti為已結束事件的話輪,否則標記為未結束事件的話輪;
(3)判斷是否到達定期更新時間;如果到達,則對有監督分層概率潛在語義分析模型進行模型更新;否則,結束算法,所述的定期更新是指每一個月末將新識別的完整事件加入到訓練集中,對模型重新訓練;?
第一步的步驟(4)所述的自適應語言特征聚集向量的計算過程是:
Step1:計算當前話輪Ti發生后,在時間間隔[Ti.stamp-ΔT,Ti.stamp]內話輪發生的頻次V(Ti):
其中,C(T1.stamp,Ti.stamp)表示在時間間隔[T1.stamp,Ti.stamp]內共發生的話輪次數,C(Ti.stamp-ΔT,Ti.stamp)表示在時間間隔[Ti.stamp-ΔT,Ti.stamp]內共發生的話輪次數,ΔT為一個固定的時間間隔,初始化ΔT=1小時;
Step2:自適應的確定時間緊密度閾值Th的大小:先計算Th′,即:
然后Th=Th′,即更新時間閾值,其中初始化時,Δv設置為0.3,閾值Th=6小時,利用以上的思想達到自適應的改變時間閾值Th大小的目的;
Step3:令?表示時間間隔[Ti.stamp-Th,Ti.stamp]內發生的話輪集合,那么Ti的語言特征聚集向量就為?中所有話輪的語言特征向量之和,即:
第一步的步驟(5)、第二步的步驟(3)所述的有監督分層概率潛在語義分析模型,其訓練過程如下:
Step1、依據主題的分層特性對訓練數據集合進行分層分類組織,主題分層之后形成的是一個樹狀結構,記作:
其中level表示主題類別所處的層次,k表示當前主題?是屬于上一層主題中的第k個子主題類別,ak表示當前主題?所包含的子主題數目,如果ak=0,那么?就是主題的葉子結點,記為?否則?就是包含子主題的母結點,記作?所述的mon_topics是指包含有子主題的結點集合,leaf_topics是指葉子結點集合;當level=0時,記?表示頂層的主題類別,其中a0表示頂層主題類別數;?
那么,訓練數據的組織過程如下:
Step1.1、生成特征詞向量W,過程如下:
Step1.1.1、統計訓練數據集合中出現的單獨詞的總數,刪除停用詞之后形成一個特征詞向量?其中?表示第f個特征詞在訓練數據中出現的次數,?表示特征詞的個數;所述的停用詞包括:符號、助詞、介詞、連詞、嘆詞、擬聲詞、數詞;
Step1.1.2、利用TFIDF算法對?進行特征詞權重的計算,并按權重由大到小進行排序,刪除權重小于0.1的特征詞后得到特征詞向量為W={w1,w2,...wf′,...,wn},其中wf′表示第f′個特征詞在訓練數據中權重大小,n表示特征詞的個數;
Step1.2、生成共生矩陣N,過程如下:
Step1.2.1、將訓練數據中所有屬于主題?的文檔形成一個文檔集合?其中mk表示文檔個數;
Step1.2.2、那么維數大小為n×mk詞和文檔的共生矩陣N就為:N=(c(wr,ds))rs,其中,c(wr,ds)表示第r個特征詞在第s個文檔中出現的次數;
Step2、在此訓練數據集集合上,按照自頂向下的方式,逐層訓練出相應的概率潛在語義分析模型,過程如下:
Step2.1、利用TFIDF算法對矩陣N的元素進行權重的計算,生成一個新的共生矩陣?;
Step2.2、利用概率潛在語義分析算法對共生矩陣?進行學習,生成大小為n×Q的WZ=(p(wr,zq))rq以及大小為Q×mk的DZ=(p(zq,ds))qs的兩個矩陣,其中zq∈Z=(z1,z2,...,zQ),Z表示潛在語義空間,Q表示潛在語義空間的大小;p(wr,zq)表示第r個特征詞在潛在語義zq上的概率大小;p(zq,ds)表示第s個文檔在潛在語義zq上的概率大小;
Step3、利用多類支持向量機SVM(Support?Vector?Machine)分類器分別對各層訓練所得的概率潛在語義分析模型對應的DZ進行訓練,生成各層對應的有監督概率潛在語義分析模型分類器?當level=0時,分類器為M0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110312540.X/1.html,轉載請聲明來源鉆瓜專利網。





