[發(fā)明專(zhuān)利]規(guī)則關(guān)聯(lián)模型的新概念發(fā)現(xiàn)方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201710556964.8 | 申請(qǐng)日: | 2017-07-10 |
| 公開(kāi)(公告)號(hào): | CN107391638A | 公開(kāi)(公告)日: | 2017-11-24 |
| 發(fā)明(設(shè)計(jì))人: | 席麗娜;李德彥;王文軍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京神州泰岳軟件股份有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06N99/00 |
| 代理公司: | 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)11363 | 代理人: | 逯長(zhǎng)明,許偉群 |
| 地址: | 100089 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 規(guī)則 關(guān)聯(lián) 模型 新概念 發(fā)現(xiàn) 方法 裝置 | ||
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種規(guī)則關(guān)聯(lián)模型的新概念發(fā)現(xiàn)方法及裝置。
背景技術(shù)
關(guān)聯(lián)分析是指從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)規(guī)律以及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,數(shù)據(jù)規(guī)律和數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系在具體業(yè)務(wù)場(chǎng)景的控制決策過(guò)程中,具有重要的參考價(jià)值。對(duì)于具體的業(yè)務(wù)場(chǎng)景,關(guān)聯(lián)分析是在業(yè)務(wù)場(chǎng)景的樣本數(shù)據(jù)中梳理所關(guān)注的業(yè)務(wù)概念,以及概念之間的關(guān)聯(lián)關(guān)系,并將業(yè)務(wù)概念和概念之間的關(guān)聯(lián)關(guān)系作為模型進(jìn)行保存,以便服務(wù)于后續(xù)業(yè)務(wù)的控制和決策。
現(xiàn)有的關(guān)聯(lián)分析方法主要依賴(lài)于機(jī)器學(xué)習(xí)算法,如通過(guò)候選集生成和情節(jié)向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集的Apriori算法,以及基于頻繁模式樹(shù)數(shù)據(jù)結(jié)構(gòu)的FPGrowth算法。現(xiàn)有技術(shù)中的機(jī)器學(xué)習(xí)算法本身挖掘到的數(shù)據(jù)量較大,關(guān)聯(lián)關(guān)系的確定依賴(lài)于結(jié)果評(píng)價(jià)指標(biāo),如置信度等,這些評(píng)價(jià)指標(biāo)一般是統(tǒng)計(jì)數(shù)據(jù),對(duì)于具體的業(yè)務(wù)場(chǎng)景,不能保證有效的定位具有使用價(jià)值的關(guān)聯(lián)結(jié)果。因此,在實(shí)際數(shù)據(jù)挖掘過(guò)程中,需要根據(jù)具體業(yè)務(wù)場(chǎng)景以特定的規(guī)則建立關(guān)聯(lián)模型。
但對(duì)于具體的業(yè)務(wù)場(chǎng)景而言,業(yè)務(wù)概念會(huì)隨著整個(gè)業(yè)務(wù)領(lǐng)域的發(fā)展不斷增多,構(gòu)建的模型中并不能及時(shí)更新這部分新概念,進(jìn)而無(wú)法從樣本數(shù)據(jù)中識(shí)別這些具有重要含義的新概念,使得信息丟失。而對(duì)于最初涉足這一業(yè)務(wù)領(lǐng)域的建模人員,新概念還可能造成建模人員的不解,很難構(gòu)建比較完善的模型體系。因此,如何通過(guò)發(fā)現(xiàn)新概念,并建立一個(gè)相對(duì)完善的關(guān)聯(lián)模型體系成為本領(lǐng)域亟待解決的問(wèn)題。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N規(guī)則關(guān)聯(lián)模型的新概念發(fā)現(xiàn)方法及裝置,以解決傳統(tǒng)建模方法容易造成信息丟失,使構(gòu)建的模型不完善的問(wèn)題。
一方面,本申請(qǐng)?zhí)峁┮环N規(guī)則關(guān)聯(lián)模型的新概念發(fā)現(xiàn)方法,包括:
獲取當(dāng)前業(yè)務(wù)場(chǎng)景的訓(xùn)練語(yǔ)料;
根據(jù)所述訓(xùn)練語(yǔ)料生成推薦模型,所述推薦模型包括訓(xùn)練詞匯表以及所述訓(xùn)練詞匯表中每個(gè)詞匯的實(shí)數(shù)值向量;
獲取當(dāng)前業(yè)務(wù)場(chǎng)景對(duì)應(yīng)的規(guī)則關(guān)聯(lián)模型,并根據(jù)所述推薦模型確定與所述規(guī)則關(guān)聯(lián)模型中業(yè)務(wù)概念相對(duì)應(yīng)的新概念;
將所述新概念添加到所述規(guī)則關(guān)聯(lián)模型中。
可選的,所述獲取當(dāng)前業(yè)務(wù)場(chǎng)景的訓(xùn)練語(yǔ)料步驟,包括:
確定當(dāng)前業(yè)務(wù)場(chǎng)景;
獲取所述當(dāng)前業(yè)務(wù)場(chǎng)景的業(yè)務(wù)數(shù)據(jù);
從所述業(yè)務(wù)數(shù)據(jù)中提取樣本數(shù)據(jù),并將所述樣本數(shù)據(jù)作為所述訓(xùn)練語(yǔ)料。
可選的,所述根據(jù)所述訓(xùn)練語(yǔ)料生成推薦模型,的步驟,包括:
對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行逐條分詞生成分詞列表,并獲取停用詞匯表;
根據(jù)所述停用詞匯表,篩選所述分詞列表中的停用詞匯,并將所述停用詞匯移除分詞列表;
將篩選后的所述分詞列表確定為訓(xùn)練詞匯表,并根據(jù)所述訓(xùn)練詞匯表中的詞匯在所述訓(xùn)練語(yǔ)料文本的位置生成詞空間向量模型;
根據(jù)所述詞空間向量模型確定所述訓(xùn)練詞匯表中每個(gè)詞匯的實(shí)數(shù)值向量。
可選的,所述獲取當(dāng)前業(yè)務(wù)場(chǎng)景對(duì)應(yīng)的規(guī)則關(guān)聯(lián)模型,并根據(jù)所述推薦模型確定與所述規(guī)則關(guān)聯(lián)模型中業(yè)務(wù)概念相對(duì)應(yīng)的新概念的步驟,包括:
獲取所述當(dāng)前業(yè)務(wù)場(chǎng)景的規(guī)則關(guān)聯(lián)模型,以及所述規(guī)則關(guān)聯(lián)模型中所有元組的業(yè)務(wù)概念;
根據(jù)所述推薦模型確定所述業(yè)務(wù)概念與所述訓(xùn)練詞匯表中每個(gè)詞匯的所述實(shí)數(shù)值向量的關(guān)聯(lián)度;
根據(jù)所述關(guān)聯(lián)度對(duì)每個(gè)所述業(yè)務(wù)概念對(duì)應(yīng)所有詞匯進(jìn)行排序,確定新概念,并將所述新概念添加到所述規(guī)則關(guān)聯(lián)模型。
可選的,所述根據(jù)所述關(guān)聯(lián)度對(duì)所述業(yè)務(wù)概念進(jìn)行排序,確定新概念,并將所述新概念添加到所述規(guī)則關(guān)聯(lián)模型的步驟,包括:
根據(jù)所述關(guān)聯(lián)度,由大到小依次對(duì)所述詞匯進(jìn)行排序,生成概念列表;
根據(jù)所述當(dāng)前業(yè)務(wù)場(chǎng)景確定關(guān)聯(lián)度閾值,并對(duì)比所述概念列表中每個(gè)詞匯對(duì)應(yīng)的關(guān)聯(lián)度與所述關(guān)聯(lián)度閾值;
如果所述詞匯未出現(xiàn)在所述規(guī)則關(guān)聯(lián)模型中,且所述詞匯對(duì)應(yīng)的關(guān)聯(lián)度大于或等于所述關(guān)聯(lián)度閾值,則確定所述詞匯為新概念;
將所述新概念添加到所述規(guī)則關(guān)聯(lián)模型。
另一方面,本申請(qǐng)還提供一種規(guī)則關(guān)聯(lián)模型的新概念發(fā)現(xiàn)裝置,包括:
數(shù)據(jù)輸入模塊,用于獲取當(dāng)前業(yè)務(wù)場(chǎng)景的訓(xùn)練語(yǔ)料;
推薦模型訓(xùn)練模塊,用于根據(jù)所述訓(xùn)練語(yǔ)料生成推薦模型,所述推薦模型包括訓(xùn)練詞匯表以及所述訓(xùn)練詞匯表中每個(gè)詞匯的實(shí)數(shù)值向量;
新概念推薦模塊,用于獲取當(dāng)前業(yè)務(wù)場(chǎng)景對(duì)應(yīng)的規(guī)則關(guān)聯(lián)模型,并根據(jù)所述推薦模型確定與所述規(guī)則關(guān)聯(lián)模型中業(yè)務(wù)概念相對(duì)應(yīng)的新概念;
新概念添加模塊,用于將所述新概念添加到所述規(guī)則關(guān)聯(lián)模型中。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京神州泰岳軟件股份有限公司,未經(jīng)北京神州泰岳軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710556964.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫(xiě)規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)





