[發明專利]一種基于詞性特征和語義增強的短文本主題建模方法在審
| 申請號: | 202010193427.3 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111368068A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 趙博 | 申請(專利權)人: | 江蘇鴻程大數據技術與應用研究院有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/284;G06F40/289;G06F40/295;G06F40/30;G06K9/62 |
| 代理公司: | 北京聯瑞聯豐知識產權代理事務所(普通合伙) 11411 | 代理人: | 周超 |
| 地址: | 210000 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞性 特征 語義 增強 文本 主題 建模 方法 | ||
1.一種基于詞性特征和語義增強的短文本主題建模方法,其特征在于,包括:
(a)自定義詞性特征
(b)計算各個單詞間的語義相似度
(c)生成建模文檔;和
(d)在模型的吉布斯采樣推斷過程中,對特定的單詞進行語義增強。
2.根據權利要求1的短文本主題建模方法,其特征在于,在步驟(a)之中還包括以下步驟:
(a1)根據語料特性和用戶需求定義與主題相關的詞性特征集;
(a2)進行預處理操作,并將每個單詞根據詞性標注的結果歸入不同的詞性特征。
3.根據權利要求1的短文本主題建模方法,其特征在于,在步驟(b)之中還包括以下步驟:
(b1)通過計算外部詞嵌入和本地詞嵌入的加權平均獲取單詞的聯合詞嵌入;
(b2)然后通過計算聯合詞嵌入之間的余弦距離來衡量不同單詞間的語義相似度,獲得每個單詞與其語義相關的單詞的集合。
4.根據權利要求1的短文本主題建模方法,其特征在于,在步驟(c)之中還包括以下步驟:
(c1)首先根據詞性標注的結果判別該單詞的詞性特征;
(c2)若為地點和對象特征,則從對應的主題特征-單詞分布中采樣該單詞;
(c3)否則,另外引入一個開關變量,來決定該單詞是與主題相關的關鍵詞還是全局背景單詞。
5.根據權利要求1的短文本主題建模方法,其特征在于,在步驟(d)之中還包括以下步驟:
(d1)首先為每篇文檔隨機初始化一個主題;
(d2)然后通過計算條件概率分布為每篇文檔重新采樣一個主題,并更新相應的計數;迭代直至模型收斂;
(d3)待模型收斂之后,利用極大后驗估計便可計算出全局主題分布和主題特征和單詞分布計算公式為:
6.根據權利要求1-5任一所述的短文本主題建模方法,其特征在于,還包括一種測試模型方法,包括以下步驟:
(e1)分別在全網新聞數據集和檢索片段數據集上,從主題連貫性指標、短文本分類指標和短文本聚類指標三個方面評估;
(e2)并和其他短文本主題模型進行了對比。
7.根據權利要求2所述的短文本主題建模方法,其特征在于,對于中文語料,在分詞后采用詞性標注集對每個單詞進行詞性標注;對于英文語料,使用自然語言處理工具包進行詞性標注和命名實體識別。
8.根據權利要求4所述的短文本主題建模方法,其特征在于,其中單詞w在嵌入空間中的表示為v(w),主題zd在嵌入空間中的表示為v(zd),則單詞w與主題zd的相關度可以定義為兩者在嵌入空間中的余弦距離:
9.根據權利要求8所述的短文本主題建模方法,其特征在于,其中v(zd)的計算過程如下:首先選取主題zd的每個特征分布下概率值最高的前N個單詞,構成主題zd的代表詞集合W(zd),然后計算詞向量的平均值作為主題zd在嵌入空間中的最終表示v(zd)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇鴻程大數據技術與應用研究院有限公司,未經江蘇鴻程大數據技術與應用研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010193427.3/1.html,轉載請聲明來源鉆瓜專利網。





