[發(fā)明專(zhuān)利]一種基于上下文語(yǔ)義的細(xì)粒度領(lǐng)域術(shù)語(yǔ)自學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711404969.5 | 申請(qǐng)日: | 2017-12-22 |
| 公開(kāi)(公告)號(hào): | CN108038106B | 公開(kāi)(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 張順;林紹福;陳建輝;高江帆;何小波 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F40/211 | 分類(lèi)號(hào): | G06F40/211;G06F16/33;G06F16/36 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 上下文 語(yǔ)義 細(xì)粒度 領(lǐng)域 術(shù)語(yǔ) 自學(xué)習(xí) 方法 | ||
1.一種基于上下文語(yǔ)義的細(xì)粒度領(lǐng)域術(shù)語(yǔ)自學(xué)習(xí)方法,其特征在于,包括如下步驟:
步驟1:構(gòu)建初始術(shù)語(yǔ)集和目標(biāo)語(yǔ)料庫(kù)
基于領(lǐng)域已存在的術(shù)語(yǔ)集進(jìn)行精簡(jiǎn)或者手動(dòng)自主構(gòu)建,得到一個(gè)20-30個(gè)詞組成的術(shù)語(yǔ)集合的初始術(shù)語(yǔ)集,利用正負(fù)最大匹配抽取初始術(shù)語(yǔ)集在35個(gè)詞大小窗口下的上下文集合構(gòu)建形成目標(biāo)語(yǔ)料庫(kù);
步驟2:構(gòu)建對(duì)照語(yǔ)料庫(kù)
對(duì)照數(shù)據(jù)集應(yīng)分為通用對(duì)照語(yǔ)料子集和領(lǐng)域?qū)φ照Z(yǔ)料子集兩部分;前者由目標(biāo)領(lǐng)域以外的多領(lǐng)域術(shù)語(yǔ)及其上下文組成;后者由目標(biāo)領(lǐng)域內(nèi)待學(xué)習(xí)術(shù)語(yǔ)以外的領(lǐng)域術(shù)語(yǔ)及其上下文組成;
步驟3:基于上下文平衡二叉樹(shù)的知識(shí)源預(yù)處理
對(duì)于待抽取知識(shí)源,運(yùn)用自然語(yǔ)言處理技術(shù)識(shí)別名詞短語(yǔ)作為候選術(shù)語(yǔ)集,并抽取其在35個(gè)詞大小窗口下的上下文集合,構(gòu)建形成候選術(shù)語(yǔ)上下文平衡二叉樹(shù),其中,候選術(shù)語(yǔ)上下文平衡二叉樹(shù)的節(jié)點(diǎn)編號(hào)和存儲(chǔ)值分別存儲(chǔ)候選術(shù)語(yǔ)及其對(duì)應(yīng)上下文集合,作為進(jìn)一步篩選和處理的基礎(chǔ);
步驟4:基于上下文-語(yǔ)料庫(kù)相關(guān)性假設(shè)的術(shù)語(yǔ)領(lǐng)域區(qū)分度計(jì)算
首先構(gòu)建術(shù)語(yǔ)上下文與語(yǔ)料庫(kù)的相關(guān)性假設(shè),在此基礎(chǔ)上,綜合應(yīng)用對(duì)數(shù)似然比和基于上下文向量的句子相似度量,計(jì)算術(shù)語(yǔ)領(lǐng)域區(qū)分度Dtn(t);
步驟5:計(jì)算候選術(shù)語(yǔ)領(lǐng)域依存偏向值
構(gòu)建“中心詞-修飾詞”詞形骨架模型,分別計(jì)算候選術(shù)語(yǔ)“中心詞”上下文在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)的相似度;首先定義候選術(shù)語(yǔ)領(lǐng)域依存偏向自變量DRG=W2/W1,其中W10,W2≥0,W1和W2分別為候選術(shù)語(yǔ)上下文在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中出現(xiàn)的頻次,然后利用領(lǐng)域依存偏向函數(shù)Dte(t)=e-n*DRG*ln2(1),其中e是自然對(duì)數(shù),n是調(diào)節(jié)因子,n的取值范圍為10000-12000,然后計(jì)算候選術(shù)語(yǔ)的領(lǐng)域依存偏向值,進(jìn)而構(gòu)建候選術(shù)語(yǔ)依存調(diào)節(jié)因子二叉樹(shù),其中,候選術(shù)語(yǔ)依存調(diào)節(jié)因子二叉樹(shù)的節(jié)點(diǎn)編號(hào)和存儲(chǔ)值分別存儲(chǔ)候選術(shù)語(yǔ)及其領(lǐng)域依存偏向值;
步驟6:計(jì)算候選術(shù)語(yǔ)隸屬激活值
結(jié)合步驟4和步驟5的結(jié)果,整合候選術(shù)語(yǔ)上下文平衡二叉樹(shù)和候選術(shù)語(yǔ)依存調(diào)節(jié)因子二叉樹(shù),構(gòu)建“區(qū)分-偏向-隸屬”三層映射激活模型,計(jì)算候選術(shù)語(yǔ)隸屬激活值,即Dtm(t)=Dtn(t)*Dte(t),其中,Dtn(t)表示術(shù)語(yǔ)領(lǐng)域區(qū)分度,通過(guò)步驟4的結(jié)果得到,Dte(t)表示候選術(shù)語(yǔ)領(lǐng)域依存偏向值,通過(guò)步驟5的結(jié)果得到;構(gòu)建候選術(shù)語(yǔ)隸屬激活值二叉樹(shù),其中,候選術(shù)語(yǔ)隸屬激活值二叉樹(shù)的節(jié)點(diǎn)編號(hào)和存儲(chǔ)值分別存儲(chǔ)候選術(shù)語(yǔ)及其隸屬激活值;
步驟7:細(xì)粒度領(lǐng)域術(shù)語(yǔ)自學(xué)習(xí)
基于候選術(shù)語(yǔ)隸屬激活值二叉樹(shù),設(shè)置激活值臨界值,畫(huà)出不同激活值臨界值對(duì)應(yīng)的準(zhǔn)確率曲線(xiàn),取閾值對(duì)應(yīng)最高準(zhǔn)確率的值為激活值臨界值,滿(mǎn)足臨界值的術(shù)語(yǔ)視為發(fā)現(xiàn)的領(lǐng)域新術(shù)語(yǔ),添加進(jìn)初始術(shù)語(yǔ)集,并返回執(zhí)行步驟1。
2.如權(quán)利要求1所述的基于上下文語(yǔ)義的細(xì)粒度領(lǐng)域術(shù)語(yǔ)自學(xué)習(xí)方法,其特征在于,所述步驟4中基于上下文-語(yǔ)料庫(kù)相關(guān)性假設(shè)的術(shù)語(yǔ)領(lǐng)域區(qū)分度計(jì)算具體方法過(guò)程為:
步驟1):定義上下文-語(yǔ)料庫(kù)相關(guān)性假設(shè)
假設(shè)1:候選術(shù)語(yǔ)的上下文在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中出現(xiàn)的頻次相同;
假設(shè)2:候選術(shù)語(yǔ)的上下文在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中出現(xiàn)的頻次不同;
步驟2):構(gòu)造目標(biāo)語(yǔ)料向量集
首先,基于目標(biāo)語(yǔ)料庫(kù),訓(xùn)練一個(gè)基于上下文的“傳入-隱藏-反饋”三層神經(jīng)網(wǎng)絡(luò)模型;其次,遍歷目標(biāo)語(yǔ)料庫(kù)中的所有上下文,將每一上下文逐詞輸入神經(jīng)網(wǎng)絡(luò)模型,獲取各詞對(duì)應(yīng)的多維詞向量,并利用所有詞向量的各維度平均值,構(gòu)造上下文向量;最后,匯總目標(biāo)語(yǔ)料庫(kù)中所有上下文的上下文向量,構(gòu)造目標(biāo)語(yǔ)料向量集;
步驟3):構(gòu)造對(duì)照語(yǔ)料向量集
首先,基于對(duì)照語(yǔ)料庫(kù),訓(xùn)練一個(gè)基于上下文的“傳入-隱藏-反饋”三層神經(jīng)網(wǎng)絡(luò)模型;其次,遍歷對(duì)照語(yǔ)料庫(kù)中的所有上下文,將每一上下文逐詞輸入神經(jīng)網(wǎng)絡(luò)模型,獲取各詞對(duì)應(yīng)的多維詞向量,并利用所有詞向量的各維度平均值,構(gòu)造上下文向量;最后,匯總對(duì)照語(yǔ)料庫(kù)中所有上下文的上下文向量,構(gòu)造對(duì)照語(yǔ)料向量集;
步驟4):構(gòu)造候選術(shù)語(yǔ)上下文向量
首先,基于候選術(shù)語(yǔ),遍歷候選術(shù)語(yǔ)上下文平衡二叉樹(shù)提取對(duì)應(yīng)上下文;然后將上下文逐一輸入對(duì)照語(yǔ)料庫(kù)的三層神經(jīng)網(wǎng)絡(luò)模型,獲取各詞對(duì)應(yīng)的多維詞向量;最后利用所有詞向量的各維度平均值構(gòu)造候選術(shù)語(yǔ)上下文向量;
步驟5):融合對(duì)數(shù)似然估計(jì)和句子相似度計(jì)算的術(shù)語(yǔ)領(lǐng)域區(qū)分度計(jì)算
結(jié)合步驟1)的定義的兩個(gè)假設(shè)L(H1)和L(H2),利用二項(xiàng)式分布假設(shè)計(jì)算L(H1)和L(H2)的似然估計(jì)值,其中L(H1)=B(W1;W1+W2;P)B(W2;W1+W2;P),L(H2)=B(W1;W1+W2;P1)B(W2;W1+W2;P2),其中W1和W2分別表示為候選術(shù)語(yǔ)上下文在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中出現(xiàn)的頻次,P1和P2分別表示候選術(shù)語(yǔ)的上下文在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)出現(xiàn)的概率;結(jié)合二項(xiàng)式分布假設(shè)B(W2;W1+W2;P),公式轉(zhuǎn)化為P為假設(shè)1中候選術(shù)語(yǔ)上下文在目標(biāo)語(yǔ)料庫(kù)中出現(xiàn)的概率,則相應(yīng)的對(duì)數(shù)似然比以2為底Ttf的計(jì)算為用于計(jì)算上下文-語(yǔ)料庫(kù)相關(guān)性假設(shè)的可能性;然后通過(guò)利用計(jì)算候選術(shù)語(yǔ)各上下文句子向量與目標(biāo)語(yǔ)料向量集中各上下文句子向量的句子相似度,其中a表示候選術(shù)語(yǔ)各上下文句子向量,b表示目標(biāo)語(yǔ)料向量集中各上下文句子向量;計(jì)算候選術(shù)語(yǔ)各上下文句子向量與目標(biāo)語(yǔ)料向量集中各上下文句子向量的句子相似度,通過(guò)統(tǒng)計(jì)相似度頻次,閾值超過(guò)50次獲得W1;計(jì)算候選術(shù)語(yǔ)各上下文句子向量與對(duì)照語(yǔ)料向量集中各上下文句子向量的句子相似度,通過(guò)統(tǒng)計(jì)相似度頻次,閾值超過(guò)50次獲得W2。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711404969.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 自動(dòng)創(chuàng)建上下文信息提供配置的系統(tǒng)
- 用于管理上下文的方法、系統(tǒng)和裝置
- 一種基于本體的上下文感知應(yīng)用平臺(tái)框架模型
- 一種基于上下文感知的智能家居系統(tǒng)
- 實(shí)現(xiàn)上下文感知業(yè)務(wù)應(yīng)用的方法和相關(guān)裝置
- 一種多推理引擎融合上下文感知系統(tǒng)及其工作方法
- 多個(gè)并發(fā)上下文虛擬演進(jìn)型會(huì)話(huà)管理(虛擬ESM)
- 一種基于異質(zhì)上下文感知的推薦方法
- 一種可提高上下文質(zhì)量的本體建模方法及裝置
- 微服務(wù)全局上下文控制方法及系統(tǒng)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類(lèi)方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種管理和傳送細(xì)粒度業(yè)務(wù)的方法
- 基于CPU硬件性能監(jiān)控計(jì)數(shù)器的CPI精確測(cè)量方法
- 一種基于改進(jìn)YOLOv3的細(xì)粒度圖像分類(lèi)方法
- 細(xì)粒度對(duì)象流量分析方法和裝置
- 一種基于點(diǎn)云數(shù)據(jù)建模的方法、裝置和電子設(shè)備
- 細(xì)粒度圖像分類(lèi)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于圖像卷積特征的復(fù)雜背景下害蟲(chóng)細(xì)粒度圖像識(shí)別方法
- 一種細(xì)粒度分類(lèi)模型的優(yōu)化方法、系統(tǒng)及相關(guān)裝置
- 一種結(jié)合注意力混合裁剪的細(xì)粒度圖像識(shí)別方法
- 基于分級(jí)式結(jié)構(gòu)的細(xì)粒度視頻動(dòng)作識(shí)別方法





