[發(fā)明專利]一種基于語義擴(kuò)展和最大邊緣相關(guān)的偽文本生成方法有效
| 申請?zhí)枺?/td> | 201910369823.4 | 申請日: | 2019-05-06 |
| 公開(公告)號: | CN110032741B | 公開(公告)日: | 2020-02-04 |
| 發(fā)明(設(shè)計(jì))人: | 盧玲;楊武 | 申請(專利權(quán))人: | 重慶理工大學(xué) |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 50240 重慶天成卓越專利代理事務(wù)所(普通合伙) | 代理人: | 路寧 |
| 地址: | 400054 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本生成 語義擴(kuò)展 文本 相似度計(jì)算 短語 文本語義 候選詞 原文 噪音 篩選 | ||
1.一種基于語義擴(kuò)展和最大邊緣相關(guān)的偽文本生成方法,其特征在于,包括以下步驟:
S1,提取原文本的詞和/或短語特征;
S2,根據(jù)步驟S1中提取的特征通過相似度計(jì)算生成擴(kuò)展詞;
其中,擴(kuò)展詞的生成方法包括:
以預(yù)訓(xùn)練的詞向量矩陣WMDIC為查找表;計(jì)算:
其中,findNearest()為計(jì)算最相似的詞向量,ti為文本特征,WMDIC為預(yù)訓(xùn)練的詞向量矩陣,n為候選頂點(diǎn)數(shù);為候選詞集;
其中,sim()為相似度度量函數(shù),為擴(kuò)展特征,w為實(shí)邊線權(quán)值;
其中,為生成ti與之間權(quán)值為w的實(shí)線邊;
Er=Er∪{er};Er為實(shí)線邊集,er為實(shí)線邊;
C(h)為擴(kuò)展特征集,為候選擴(kuò)展詞集;
S3,對步驟S2中的擴(kuò)展詞進(jìn)行篩選候選詞;
S4,生成偽文本。
2.根據(jù)權(quán)利要求1所述的基于語義擴(kuò)展和最大邊緣相關(guān)的偽文本生成方法,其特征在于,在步驟S1中,原文本的詞和/或短語特征的提取方法包括:
設(shè)S為原文本,將其表示為詞向量矩陣,設(shè)窗口大小為h,對窗口內(nèi)詞向量求和,得到S的一組短語特征T(h),表示為其中,是大小為h的窗口內(nèi)詞向量相加而成的新向量;
當(dāng)h為1時(shí),T(1)即為S,表示單個(gè)詞特征;
通過改變h大小,得到S的多組語義特征,表示為T={T(1),T(2),...,T(p)}。
3.根據(jù)權(quán)利要求1所述的基于語義擴(kuò)展和最大邊緣相關(guān)的偽文本生成方法,其特征在于,在步驟S3中,候選詞的篩選方法包括:
設(shè)詞典為D,原文特征為T(h),對為其候選詞;計(jì)算:
其中,z為虛線邊權(quán)值,其中,tj∈{ti-m,...,ti-1,ti+1,...,ti+m};
其中,為生成tj與之間權(quán)值為z的虛線邊;
Ep=Ep∪{ep},其中,Ep為虛邊集,ep為虛線邊;
其中,為特征tj對候選詞的條件概率,計(jì)算公式為:
其中,|D|為字典D中的詞數(shù),是tj、在文本集中的共現(xiàn)頻度;
由于是生成的擴(kuò)展詞,對假設(shè)其先驗(yàn)概率相等,令則在TP下的后驗(yàn)概率計(jì)算如式:
即的后驗(yàn)概率是其相關(guān)聯(lián)虛線邊權(quán)值的乘積。
4.根據(jù)權(quán)利要求1所述的基于語義擴(kuò)展和最大邊緣相關(guān)的偽文本生成方法,其特征在于,在步驟S4中,偽文本的生成方法包括:
對將評分最高的作為ti的擴(kuò)展特征;
評分的計(jì)算方法為:其中,w為實(shí)邊線權(quán)值;為擴(kuò)展特征,
分別對進(jìn)行語義擴(kuò)展,將篩選的擴(kuò)展詞與S拼接,得到偽文本PD。
5.根據(jù)權(quán)利要求1所述的基于語義擴(kuò)展和最大邊緣相關(guān)的偽文本生成方法,其特征在于,在步驟S3中還包括:
在篩選擴(kuò)展詞時(shí),對文本特征ti,為其候選詞集,如為ti-1已選中的擴(kuò)展詞,則對計(jì)算:
其中,sim()為余弦相似度度量函數(shù),λ是相關(guān)度度量參數(shù);
當(dāng)i為1時(shí),由于t1沒有前序特征,對其關(guān)聯(lián)的實(shí)線邊權(quán)值不做修改。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶理工大學(xué),未經(jīng)重慶理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910369823.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本生成方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)
- 一種文本生成的方法及裝置
- 文本生成方法、文本生成裝置以及已學(xué)習(xí)模型
- 一種基于元強(qiáng)化學(xué)習(xí)的文本生成方法
- 文本生成模型的生成方法、裝置和電子設(shè)備
- 一種文本生成的方法及設(shè)備
- 一種文本生成方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 實(shí)現(xiàn)文本生成的方法、裝置、設(shè)備和介質(zhì)
- 文本生成模型生成方法、文本生成方法、裝置及設(shè)備
- 文本生成方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種基于領(lǐng)域知識的語義查詢擴(kuò)展方法
- 一種基于擴(kuò)展Petri網(wǎng)模型的語義Web服務(wù)組合方法
- 文本檢索方法及系統(tǒng)
- 一種目標(biāo)屬性抽取的方法和設(shè)備
- 一種基于知網(wǎng)HowNet的查詢擴(kuò)展方法和裝置
- 短文本分類模型的生成方法、分類方法、裝置及存儲介質(zhì)
- 一種數(shù)據(jù)庫相似語句篩選的方法和裝置
- 一種基于問題目標(biāo)特征擴(kuò)展的分類方法
- 用于在分析應(yīng)用環(huán)境中進(jìn)行定制的系統(tǒng)和方法
- 自密實(shí)混凝土圖像語義分割方法、裝置及數(shù)據(jù)集生成方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 場景切換點(diǎn)檢測器、記錄和重現(xiàn)裝置、事件生成器和方法
- 相似度計(jì)算設(shè)備、相似度計(jì)算方法及程序
- 一種基于透視圖原理的道路線形相似度評價(jià)方法及裝置
- 一種基于相似度計(jì)算方法的數(shù)據(jù)排列方法
- 一種基于樹狀圖的數(shù)據(jù)相似度匹配方法及裝置
- 一種相似度計(jì)算方法、終端及計(jì)算機(jī)可讀存儲介質(zhì)
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 數(shù)據(jù)處理方法、數(shù)據(jù)處理設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 基于多相似度融合的藥物新用途預(yù)測方法
- 實(shí)體相似度計(jì)算方法





