[發(fā)明專利]一種基于詞共現(xiàn)的中藥處方向量空間模型方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810288330.3 | 申請(qǐng)日: | 2018-03-30 |
| 公開(公告)號(hào): | CN108647236B | 公開(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計(jì))人: | 袁鋒;陳陽;陳守強(qiáng);趙麗麗;常曉瑋 | 申請(qǐng)(專利權(quán))人: | 山東管理學(xué)院 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 楊哲 |
| 地址: | 250000*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞共現(xiàn) 中藥 處方 向量 空間 模型 方法 裝置 | ||
1.一種基于詞共現(xiàn)的中藥處方向量空間模型方法,其特征在于,該方法包括:
預(yù)處理中藥處方數(shù)據(jù),保留藥方與相應(yīng)證型對(duì)應(yīng)關(guān)系,構(gòu)建藥方事務(wù)集;
所述預(yù)處理中藥處方數(shù)據(jù)包括:對(duì)中藥處方數(shù)據(jù)中的同義詞、近義詞和錯(cuò)別字進(jìn)行修訂;
根據(jù)預(yù)處理中藥處方數(shù)據(jù)中藥方與相應(yīng)證型對(duì)應(yīng)關(guān)系,構(gòu)建中藥方劑藥對(duì),并根據(jù)中藥方劑藥對(duì)構(gòu)建藥方事務(wù)集;
掃描整個(gè)藥方事務(wù)集,計(jì)算各個(gè)中藥頻率以及藥對(duì)的詞共現(xiàn)頻率,并根據(jù)此計(jì)算藥對(duì)詞共現(xiàn)的支持度和置信度;
當(dāng)藥對(duì)詞共現(xiàn)的支持度和置信度大于對(duì)應(yīng)預(yù)設(shè)閾值時(shí),將該藥對(duì)加入共現(xiàn)詞集合,直至遍歷事務(wù)集;
將共現(xiàn)詞集合中屬于中藥處方藥對(duì)庫的藥對(duì)構(gòu)建語義向量空間模型,具體為:
將共現(xiàn)詞集合R={r1,r2,...,rm}中的共現(xiàn)詞與中藥處方藥對(duì)庫T的藥對(duì)進(jìn)行比對(duì);
若共現(xiàn)詞集合中的共現(xiàn)詞屬于中藥處方藥對(duì)庫,則將藥對(duì)的修正權(quán)值置1,否則置0;
根據(jù)藥對(duì)的修正權(quán)值、置信度、頻率和逆文本頻率的函數(shù)計(jì)算共現(xiàn)詞的權(quán)值,并根據(jù)共現(xiàn)詞權(quán)值,構(gòu)建語義向量空間模型;
中醫(yī)藥方語料庫D={d1,d2,...,dn}包含n個(gè)藥方,在D在抽取出的詞共現(xiàn)集合為R={r1,r2,...,rm},其中rm為抽取出的第m個(gè)詞共現(xiàn),則中醫(yī)藥方語料空間可以表示成一個(gè)m×n矩陣,其中行向量di={dri1,dri2,...,drim}代表一個(gè)藥方,矩陣中的元素drij表示詞共現(xiàn)的分布情況,如出現(xiàn)則相應(yīng)的權(quán)值為drij,如不出現(xiàn),則相應(yīng)的權(quán)值為0;
藥對(duì)的修正權(quán)值、置信度、頻率和逆文本頻率的函數(shù)為:
dri=TF×IDF×MI(ti,tj)×δ
其中,TF表示詞共現(xiàn)的詞頻,IDF表示詞共現(xiàn)的逆文本頻率,MI(ti,tj)為confidence(ti,tj);
2.如權(quán)利要求1所述的方法,其特征在于,在本方法中,分別計(jì)算藥方事務(wù)集中各個(gè)中藥方劑藥對(duì)的詞共現(xiàn)頻率以及中藥方劑藥對(duì)中單個(gè)中藥的出現(xiàn)頻率。
3.如權(quán)利要求1所述的方法,其特征在于,在本方法中,所述藥對(duì)詞共現(xiàn)的支持度為藥對(duì)在整個(gè)事務(wù)集中共同出現(xiàn)頻率。
4.如權(quán)利要求1所述的方法,其特征在于,在本方法中,所述藥對(duì)詞共現(xiàn)的置信度為藥對(duì)的詞共現(xiàn)頻率的平方與中藥方劑藥對(duì)中單個(gè)中藥的出現(xiàn)頻率乘積的比。
5.如權(quán)利要求1所述的方法,其特征在于,在本方法中,構(gòu)建所述共現(xiàn)詞集合的具體方法為:
分別判斷藥對(duì)詞共現(xiàn)的支持度和置信度與其對(duì)應(yīng)預(yù)設(shè)閾值的大小關(guān)系;
當(dāng)藥對(duì)詞共現(xiàn)的支持度和置信度大于對(duì)應(yīng)預(yù)設(shè)閾值時(shí),將該藥對(duì)加入共現(xiàn)詞集合;否則,繼續(xù)遍歷事務(wù)集;直至整個(gè)藥方事務(wù)集遍歷完畢;
構(gòu)建共現(xiàn)詞集合。
6.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有多條指令,其特征在于,所述指令適于由終端設(shè)備的處理器加載并執(zhí)行根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法。
7.一種終端設(shè)備,包括處理器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),處理器用于實(shí)現(xiàn)各指令;計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)多條指令,其特征在于,所述指令用于執(zhí)行根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東管理學(xué)院,未經(jīng)山東管理學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810288330.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于修正和/或擴(kuò)展情感詞典的方法和裝置
- 生成共現(xiàn)關(guān)鍵詞的方法、提供關(guān)聯(lián)搜索詞的方法以及系統(tǒng)
- 一種對(duì)文本中關(guān)鍵詞重要性的排序方法
- 關(guān)聯(lián)數(shù)據(jù)生成裝置和關(guān)聯(lián)數(shù)據(jù)生成方法
- 話題名稱的提取方法及裝置
- 一種基于共現(xiàn)的廣告標(biāo)簽聚類的方法及系統(tǒng)
- 一種基于多級(jí)共現(xiàn)關(guān)系詞圖的可視化文本信息發(fā)現(xiàn)方法及系統(tǒng)
- 一種網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)方法及系統(tǒng)
- GloVe詞向量模型增量訓(xùn)練方法、裝置、介質(zhì)及電子設(shè)備
- 一種發(fā)音的標(biāo)注方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





