[發(fā)明專利]一種油田安全突出問題檢測方法在審
| 申請?zhí)枺?/td> | 201910305672.6 | 申請日: | 2019-04-16 |
| 公開(公告)號: | CN110046664A | 公開(公告)日: | 2019-07-23 |
| 發(fā)明(設計)人: | 孫致學;姜寶勝;張凱;徐楊;謝爽;黃勇;何楚翹 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/33;G06Q10/04;G06Q10/06 |
| 代理公司: | 重慶晟軒知識產權代理事務所(普通合伙) 50238 | 代理人: | 王海鳳 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 油田安全 問題檢測 預測結果 語料庫 文檔 文本 訓練樣本集 操作過程 輸入預測 訓練樣本 已知數(shù)據(jù) 預測模型 概率 搜集 檢測 預測 | ||
1.一種油田安全突出問題檢測方法,其特征在于,包括如下步驟:
S100:搜集大量油田安全問題的案例,建立語料庫D,預料庫D中的每個案例均采用本領域技術詞匯進行描述,并提取特征詞;
定義:一系列相關的特征詞構成一個主題,一個主題即代表一類油田安全突出問題;
S200:建立油田安全突出問題檢測模型:選取語料庫D中一部分數(shù)據(jù)構建訓練樣本集,另一部數(shù)據(jù)作為測試樣本集;
采用三層貝葉斯概率模型對訓練樣本集中的數(shù)據(jù)進行訓練,構建油田安全突出問題檢測模型,然后再采用測試樣本集中數(shù)據(jù)進行測試,并根據(jù)測試結果修正油田安全突出問題檢測模型;
S300:待測油田安全突出問題預測,將待測油田安全突出問題輸入所述油田安全突出問題檢測模型中,計算出該待測油田安全突出問題對應的各個主題的概率值,選取概率值最大的主題作為待待測油田安全突出問題的預測結果,該預測結果即為待測油田安全突出問題的預測結果,輸出該預測結果。
2.如權利要求1所述的油田安全突出問題檢測方法,其特征在于,所述S100中語料庫D中的每個案例,先通過正則表達式清洗,再提取特征詞,最后將提取出的特征詞存入一個TXT格式的文本中。
3.如權利要求2所述的油田安全突出問題檢測方法,其特征在于,所述S300待測油田安全突出問題預測步驟為:
S301:將一個待測油田安全突出問題,通過正則表達式清洗,提取特征詞,最后將提取出的特征詞存入一個TXT格式的文本中,該TXT格式的文本定義為待測文檔;
S302:將待測文檔輸入所述油田安全突出問題檢測模型中,計算出該待測文檔對應的各個主題的概率值,選取概率值最大的主題作為待測文檔的預測結果,該預測結果即為待測油田安全突出問題的預測結果。
4.如權利要求1所述的油田安全突出問題檢測方法,其特征在于,所述S200中建立油田安全突出問題檢測模型的包括如下步驟:
S201:從語料數(shù)據(jù)庫D中隨機選取80%的數(shù)據(jù)構建訓練樣本集;
所述建訓練樣本集中共有T個主題、M個TXT格式文本和N個特征詞;
S202:α是K維向量表示主題的先驗分布的參數(shù),β是K×V的矩陣,表示主題詞的分布參數(shù)V=N,βij表示第i個主題中第j個主題詞wj的概率,βij=p(wj|zi),S表示迭代次數(shù);
1)令s=1;
2)在經驗范圍內對α和β隨機賦值,采用Gibbs吉布斯抽樣采樣法近似求解θ和Φ;
3)初始化,為每個特征詞xt隨機分配主題,zi是表示i個主題,將zi初始化為1到K之間的一個隨機整數(shù),i=1,2,...K,此為Markov鏈的初始態(tài);
4)令i=1;
5)令d=1;
6)令t=1;
7)根據(jù)公式(2)計算第i個特征詞xt屬于第j個主題的概率:
其中,表示當前詞wi在已知其他詞各自所屬主題的條件下,該詞屬于主題k的概率,ni-1表示為第k個主題下第i個單詞個數(shù)減去1,nk-1表示為該文檔第k個主題的個數(shù)減去1,表示練樣本集中,除了特征詞wi,分配為第k個主題的所有特征詞的數(shù)量,表示練樣本集中,除了詞匯wi,所有分配了主題的特征詞的數(shù)量;
記錄n(w)k、n(d)k、n(·)k和n(d);
表示特征詞xt分配給第i個主題的次數(shù),n(·)i表示分配給主題i的特征詞數(shù),n(d)i表示文本d中分配給主題i的特征詞數(shù),n(d)表示文本d中所有分配了主題的特征詞數(shù);
8)當t≤N時,令t=t+1,并返回6);否則執(zhí)行下一步;
9)令d=d+1;
10)當d≤M時,返回5),否則執(zhí)行下一步;
11)令i=i+1
12)當i≤T時,返回4);否則執(zhí)行下一步;
13)采用公式(3)和公式(4)計算分別計算θ和Φ;
其中,其中,θ(d)z=k表示是在主題k下對應的文本—主題分布,Φ(z=k)w表示主題k下對應的主題一詞分布;
14)令s=s+1;
15)如果s≤S,則返回2),否則輸出所有α和β的值;
S203:從語料數(shù)據(jù)庫D中隨機選取20%的數(shù)據(jù)構建測試樣本集,所述測試樣本集中共有T’個主題、有M’個測試文本和N’個特征詞,利用公式(1):
計算每個測試樣本屬于建訓練樣本集中每個主題的測試概率,并記錄計算時對應的α和β的值,針對每個測試樣本選取測試概率最大值所對應的主題作為其的預測主題;
最后選取M’個測試文本中預測主題正確率最高時所對應的α和β的值的作為α和β的最優(yōu)值;
S204:油田安全突出問題檢測模型如公式(5):
其中,p(zj|x1,x2,x3,...,xn)表示特征詞(x1,x2,....,xn)同時出現(xiàn)時,包含(x1,x2,....,xn)的文檔屬于主題zj的概率,p(zj)表示訓練文本集中,屬于主題zj的文本占總文本數(shù)的比率,p(x1,x2,....,xn|zj)表示待分類文本屬于主題zj時,該文本所包括特征詞(x1,x2,....,xn)的概率;
p(x1,x2,...,xn)是常數(shù),求解公式(5)等價于求解公式(6);
C=arg max p(x1,x2,....,xn|zj)p(zj) (6);
根據(jù)貝葉斯假設,文本特征向量x1,x2,....,xn獨立同分布,其聯(lián)合概率分布等于各個屬性特征概率分布的乘積,公式(6)等價于公式(7);
C=arg max p(zj)∏ip(xi|zj) (7);
其中,M(C=zj)表示訓練文本中屬于zj類別的樣本數(shù)量,M表示訓練樣本總數(shù)量;
T(Xi=xi,C=zj)表示類別zj中包含屬性xi的練樣本數(shù)量,T(C=zj)表示主題zj中的訓練樣本數(shù)量,Q表示訓練樣本集合中經過去除無用詞后關鍵詞的數(shù)量。
5.如權利要求4所述的油田安全突出問題檢測方法,其特征在于,所述S300待測油田安全突出問題預測包括如下步驟:
S301:將一個待測油田安全突出問題,通過正則表達式清洗,提取特征詞,最后將提取出的特征詞存入一個TXT格式的文本中,該TXT格式的文本定義為待測文檔;
S302:設定預測閾值,然后將待測文檔輸入所述油田安全突出問題檢測模型中,計算出該待測文檔對應的各個主題的概率值,選取最大概率值;
S303:當選取的最大概率值大于閾值時,則選取最大概率值所對應的主題作為待測文檔的預測結果,該預測結果即為待測油田安全突出問題的預測結果,輸出預測結果;
當選取的最大概率值小于或等于閾值時,則進行下一步;
S304:所述最大概率值所對應的主題作為待測文檔的初次預測值,然后該初次預測值所對應的主題中的所有特征詞的前Y個特征詞加入到待測文本中得到修正后待測文本,將修正后待測文本輸入到所述油田安全突出問題檢測模型中,計算出該修正后待測文本對應的各個主題的概率值,再次選取最大概率值,并返回S303。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910305672.6/1.html,轉載請聲明來源鉆瓜專利網。





