[發(fā)明專利]一種基于詞性特征和語(yǔ)義增強(qiáng)的短文本主題建模方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010193427.3 | 申請(qǐng)日: | 2020-03-18 |
| 公開(kāi)(公告)號(hào): | CN111368068A | 公開(kāi)(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計(jì))人: | 趙博 | 申請(qǐng)(專利權(quán))人: | 江蘇鴻程大數(shù)據(jù)技術(shù)與應(yīng)用研究院有限公司 |
| 主分類號(hào): | G06F16/34 | 分類號(hào): | G06F16/34;G06F16/35;G06F40/284;G06F40/289;G06F40/295;G06F40/30;G06K9/62 |
| 代理公司: | 北京聯(lián)瑞聯(lián)豐知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11411 | 代理人: | 周超 |
| 地址: | 210000 江蘇省南京市江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞性 特征 語(yǔ)義 增強(qiáng) 文本 主題 建模 方法 | ||
本發(fā)明公開(kāi)了一種基于詞性特征和語(yǔ)義增強(qiáng)的短文本主題建模方法,包括:(a)自定義詞性特征;(b)計(jì)算各個(gè)單詞間的語(yǔ)義相似度(c)生成建模文檔;和(d)在模型的吉布斯采樣推斷過(guò)程中,對(duì)特定的單詞進(jìn)行語(yǔ)義增強(qiáng)。以解決現(xiàn)有的短文本主題模型無(wú)法對(duì)一個(gè)主題進(jìn)行全面、具體的分析,也無(wú)法很好地解決短文本中存在的稀疏性的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)言處理領(lǐng)域,特別涉及一種基于詞性特征和語(yǔ)義增強(qiáng)的短文本主題建模方法。
背景技術(shù)
隨著社交網(wǎng)絡(luò)和移動(dòng)設(shè)備的快速發(fā)展,短文本媒體逐漸成為人們?nèi)粘I钪幸环N重要的信息來(lái)源,從這些短文本語(yǔ)料中挖掘潛在主題對(duì)于許多基于內(nèi)容的分析任務(wù)來(lái)說(shuō)十分重要,例如內(nèi)容表征、用戶興趣分析、新興主題發(fā)現(xiàn)和突發(fā)事件檢測(cè)等。與傳統(tǒng)的新聞報(bào)道和科技文獻(xiàn)等長(zhǎng)文本相比,短文本通常具備內(nèi)容簡(jiǎn)短、編寫隨意、數(shù)據(jù)量大和內(nèi)容繁雜等特點(diǎn),這無(wú)疑給基于短文本的主題分析任務(wù)帶來(lái)了巨大的挑戰(zhàn)。
傳統(tǒng)的主題模型,如概率潛在語(yǔ)義分析模型(Probabilistic Latent SemanticAnalysis,PLSA)和潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA),通常基于文檔層級(jí)的單詞共現(xiàn)模式進(jìn)行建模,以挖掘出語(yǔ)料中的潛在主題。但是,由于短文本長(zhǎng)度的限制,基于文檔層級(jí)的單詞共現(xiàn)模式在短文本語(yǔ)料中十分稀少,傳統(tǒng)的主題模型不再適用。
而現(xiàn)有的短文本主題模型大多是針對(duì)短文本語(yǔ)料中存在的稀疏性問(wèn)題進(jìn)行改進(jìn),主要包括以下三種策略:基于自聚合的策略、基于窗口的策略和基于詞嵌入的策略。基于自聚合的策略通過(guò)語(yǔ)料中的輔助元信息將短文本聚合成長(zhǎng)偽文本,然后再應(yīng)用傳統(tǒng)的主題模型對(duì)短文本語(yǔ)料進(jìn)行建模,然而這種策略高度依賴于數(shù)據(jù)集,可擴(kuò)展性較差。基于窗口的策略假定某一窗口內(nèi)的單詞均采樣自同一個(gè)主題分布,以此來(lái)增強(qiáng)短文本語(yǔ)料中的單詞共現(xiàn)模式,然而這種策略無(wú)法捕獲當(dāng)前語(yǔ)料外具有強(qiáng)烈語(yǔ)義相關(guān)性的單詞間的共現(xiàn)關(guān)系。基于詞嵌入的策略通過(guò)融入外部語(yǔ)義信息能夠在一定程度上緩解短文本中的稀疏性問(wèn)題,但是基于外部語(yǔ)料訓(xùn)練的詞嵌入不一定適用于當(dāng)前語(yǔ)料,有可能會(huì)引入噪聲,導(dǎo)致主題質(zhì)量的降低。
另一方面,現(xiàn)有的短文本主題模型通常利用訓(xùn)練好的主題-單詞分布中概率值最高的單詞來(lái)描述主題,這種主題表示方式過(guò)于粗糙,無(wú)法對(duì)一個(gè)主題進(jìn)行全面、具體的分析,例如,無(wú)法分析出與某主題相關(guān)的地點(diǎn)、對(duì)象和關(guān)鍵詞等信息。并且,描述主題的單詞中可能含有大量的噪聲單詞,雖然可以使用通用停詞表過(guò)濾掉一些無(wú)用單詞,但仍然會(huì)存在一些與主題無(wú)關(guān)的特定領(lǐng)域的常用詞,影響主題的質(zhì)量。此外,現(xiàn)有的基于詞嵌入的短文本主題模型通常基于外部語(yǔ)料訓(xùn)練的詞嵌入進(jìn)行語(yǔ)義增強(qiáng),這種做法會(huì)丟失單詞在當(dāng)前短文本語(yǔ)料中的句法和語(yǔ)義信息,而且存在一些單詞沒(méi)有對(duì)應(yīng)的詞嵌入,影響模型精度。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于詞性特征和語(yǔ)義增強(qiáng)的短文本主題建模方法,以解決現(xiàn)有的短文本主題模型無(wú)法對(duì)一個(gè)主題進(jìn)行全面、具體的分析,也無(wú)法很好地解決短文本中存在的稀疏性的問(wèn)題。
為了解決上述技術(shù)問(wèn)題,本發(fā)明的技術(shù)方案為:
一種基于詞性特征和語(yǔ)義增強(qiáng)的短文本主題建模方法,包括:
(a)自定義詞性特征
(b)計(jì)算各個(gè)單詞間的語(yǔ)義相似度
(c)生成建模文檔;和
(d)在模型的吉布斯采樣推斷過(guò)程中,對(duì)特定的單詞進(jìn)行語(yǔ)義增強(qiáng)。
進(jìn)一步地,在步驟(a)之中還包括以下步驟:
(a1)根據(jù)語(yǔ)料特性和用戶需求定義與主題相關(guān)的詞性特征集;
(a2)進(jìn)行預(yù)處理操作,并將每個(gè)單詞根據(jù)詞性標(biāo)注的結(jié)果歸入不同的詞性特征。
進(jìn)一步地,在步驟(b)之中還包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇鴻程大數(shù)據(jù)技術(shù)與應(yīng)用研究院有限公司,未經(jīng)江蘇鴻程大數(shù)據(jù)技術(shù)與應(yīng)用研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010193427.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





