[發(fā)明專利]基于混合隱馬爾可夫模型的原子事件標(biāo)簽的提取方法在審
| 申請?zhí)枺?/td> | 201810649233.2 | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN109086306A | 公開(公告)日: | 2018-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 葉偉靜;張文杰;梅峰;盧新岱;姚一楊;戴波;王彥波 | 申請(專利權(quán))人: | 國網(wǎng)浙江省電力有限公司;國網(wǎng)浙江省電力有限公司信息通信分公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州華鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33217 | 代理人: | 項(xiàng)軍 |
| 地址: | 310000*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 原子事件 標(biāo)簽 詞性 準(zhǔn)確度 位置標(biāo)簽 隱藏狀態(tài) 單詞 隱馬爾可夫模型 狀態(tài)序列 映射 觀測 預(yù)處理 訓(xùn)練語料庫 標(biāo)簽提取 模型訓(xùn)練 二階 糾錯(cuò) 檢測 | ||
1.基于混合隱馬爾可夫模型的原子事件標(biāo)簽的提取方法,其特征在于,包括以下步驟:
預(yù)處理:獲取訓(xùn)練語料庫中的原子事件標(biāo)簽;將語料庫中的所有語句分割為單詞,對每個(gè)單詞添加詞性標(biāo)簽;對每個(gè)單詞在每個(gè)語句中的相應(yīng)位置添加相應(yīng)位置標(biāo)簽;對于訓(xùn)練語料庫,將原子事件標(biāo)簽、詞性標(biāo)簽和相應(yīng)位置標(biāo)簽映射到一個(gè)隱藏狀態(tài)序列中;對于測試語料庫,將詞性標(biāo)簽和相應(yīng)位置標(biāo)簽映射到一個(gè)觀測狀態(tài)序列中;
模型訓(xùn)練:根據(jù)隱藏狀態(tài)序列中的前后隱藏狀態(tài)以及觀測狀態(tài)序列,建立二階HMM模型;
提取階段:基于二階HMM模型,利用Viterbi算法計(jì)算得到測試語料庫中的最優(yōu)觀測狀態(tài)序列,根據(jù)最優(yōu)觀測狀態(tài)序列提取詞性標(biāo)簽、相應(yīng)位置標(biāo)簽所對應(yīng)的原子事件標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的基于混合隱馬爾可夫模型的原子事件標(biāo)簽的提取方法,其特征在于,所述根據(jù)隱藏狀態(tài)序列中的前后隱藏狀態(tài)以及觀測狀態(tài)序列,建立二階HMM模型包括以下步驟:
在一個(gè)句子中,定義隱藏狀態(tài)序列S={s1,s2,…,si,…sT},(1≤i≤T),其中,si為隱藏狀態(tài),T是隱藏狀態(tài)序列的長度;
定義詞性標(biāo)簽序列PO={po1,po2,…,poi,…poQ},(1≤i≤Q),其中,poi是詞性標(biāo)簽,Q是詞性標(biāo)簽序列的長度;
定義相應(yīng)位置標(biāo)簽序列RO={ro1,ro2,…,roi,…roL},(1≤i≤L),其中roi是相應(yīng)位置標(biāo)簽,L是相應(yīng)位置標(biāo)簽序列的長度;
計(jì)算初始狀態(tài)分布概率πi并轉(zhuǎn)換為初始狀態(tài)分布概率矩陣π:
其中,c(si)為從隱藏狀態(tài)si開始的所有隱藏序列的總和,∑j∈[0,N]c(sj)為從任意隱藏狀態(tài)開始的隱藏序列的總和;
計(jì)算狀態(tài)轉(zhuǎn)移概率aijk并轉(zhuǎn)換為狀態(tài)轉(zhuǎn)移概率矩陣a:
其中,c(si,sj,sk)為t-2時(shí)刻隱藏狀態(tài)si、t-1時(shí)刻隱藏狀態(tài)sj和t時(shí)刻目的隱藏狀態(tài)sk的狀態(tài)轉(zhuǎn)移次數(shù)之和,∑l∈[1,N]c(si,sj,sl)為t-2時(shí)刻隱藏狀態(tài)si、t-1時(shí)刻隱藏狀態(tài)sj和t時(shí)刻任意類別原子事件標(biāo)簽的目的隱藏狀態(tài)sk的狀態(tài)轉(zhuǎn)移次數(shù)之和;
計(jì)算詞性標(biāo)簽的觀察分布概率bij(k)并轉(zhuǎn)換為詞性標(biāo)簽的觀察分布概率矩陣b:
其中,c(si,sj,pk)為t-1時(shí)刻隱藏狀態(tài)si、t時(shí)刻隱藏狀態(tài)sj和t時(shí)刻詞性標(biāo)簽pk的狀態(tài)轉(zhuǎn)移次數(shù)之和,∑l∈[1,M]c(si,sj,pl)為t-1時(shí)刻隱藏狀態(tài)si、t時(shí)刻隱藏狀態(tài)sj和t時(shí)刻任意類型詞性標(biāo)簽pk的狀態(tài)轉(zhuǎn)移次數(shù)之和;
計(jì)算相應(yīng)位置標(biāo)簽觀測分布概率cj(k)并轉(zhuǎn)換為相應(yīng)位置標(biāo)簽觀測分布矩陣c:
其中,c(ej,rk)為t時(shí)刻的狀態(tài)隱藏狀態(tài)si和相應(yīng)位置標(biāo)簽rk的狀態(tài)轉(zhuǎn)移次數(shù)之和,∑l∈[1,L]c(ej,rl)為t時(shí)刻的隱藏狀態(tài)ej和任意相應(yīng)位置標(biāo)簽rk的狀態(tài)轉(zhuǎn)移次數(shù)之和;
以隱藏狀態(tài)序列S、詞性標(biāo)簽序列PO、相應(yīng)位置標(biāo)簽序列RO、初始狀態(tài)分布概率矩陣π、狀態(tài)轉(zhuǎn)移概率矩陣a、詞性標(biāo)簽的觀察分布概率矩陣b、相應(yīng)位置標(biāo)簽觀測分布矩陣c為參數(shù),建立二階HMM模型。
3.根據(jù)權(quán)利要求1所述的基于混合隱馬爾可夫模型的原子事件標(biāo)簽的提取方法,其特征在于,在所述提取階段之后還包括糾錯(cuò)階段,所述糾錯(cuò)階段包括以下步驟:
依據(jù)正確原子事件標(biāo)簽類型,將錯(cuò)誤事件分為六個(gè)父類;
將每一父類的所有錯(cuò)誤事件分為三個(gè)子類;
利用K-msans聚類算法進(jìn)行錯(cuò)誤事件分析:根據(jù)二階HMM模型,確定錯(cuò)誤屬于哪個(gè)父類;
計(jì)算單詞的上下文特征向量和三個(gè)子類聚類中心的距離,若距離小于閾值T則進(jìn)行錯(cuò)誤糾正,閾值T的計(jì)算公式如下:
其中,A是訓(xùn)練語料庫中父類原子事件標(biāo)簽的數(shù)量,s是統(tǒng)計(jì)結(jié)果中錯(cuò)誤分類的父類原子事件標(biāo)簽的數(shù)量,pi是單詞的上下文特征向量,mj是第j子類聚類中心,η是協(xié)調(diào)兩個(gè)觀察者的影響的系數(shù),k是聚類中心的數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)浙江省電力有限公司;國網(wǎng)浙江省電力有限公司信息通信分公司,未經(jīng)國網(wǎng)浙江省電力有限公司;國網(wǎng)浙江省電力有限公司信息通信分公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810649233.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種高效清理終端垃圾的控制方法及控制裝置
- 下一篇:文件處理的方法及裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種推送服務(wù)系統(tǒng)及方法
- 通信軌跡擴(kuò)展方法及裝置、通信軌跡驅(qū)動(dòng)模擬方法及系統(tǒng)
- 基于賦優(yōu)先級事件圖的復(fù)雜事件調(diào)度系統(tǒng)及方法
- 一種適用于無線傳感器網(wǎng)絡(luò)的事件檢測機(jī)制
- 基于信息單元融合的新聞原子事件抽取方法
- 制造物聯(lián)網(wǎng)面向不確定數(shù)據(jù)流的復(fù)雜事件檢測方法及系統(tǒng)
- 面向物聯(lián)網(wǎng)的復(fù)雜事件處理引擎狀態(tài)監(jiān)控與災(zāi)難恢復(fù)方法
- 基于混合隱馬爾可夫模型的原子事件標(biāo)簽的提取方法
- 車險(xiǎn)理賠風(fēng)險(xiǎn)管控方法及系統(tǒng)、電子設(shè)備、介質(zhì)
- 一種針對突發(fā)事件的事件知識(shí)圖譜構(gòu)建方法
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





