[發明專利]一種基于語義擴展和最大邊緣相關的偽文本生成方法有效
| 申請號: | 201910369823.4 | 申請日: | 2019-05-06 |
| 公開(公告)號: | CN110032741B | 公開(公告)日: | 2020-02-04 |
| 發明(設計)人: | 盧玲;楊武 | 申請(專利權)人: | 重慶理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 50240 重慶天成卓越專利代理事務所(普通合伙) | 代理人: | 路寧 |
| 地址: | 400054 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本生成 語義擴展 文本 相似度計算 短語 文本語義 候選詞 原文 噪音 篩選 | ||
本發明提出了一種基于語義擴展和最大邊緣相關的偽文本生成方法,包括以下步驟:S1,提取原文本的詞和/或短語特征;S2,根據步驟S1中提取的特征通過相似度計算生成擴展詞;S3,對步驟S2中的擴展詞進行篩選候選詞;S4,生成偽文本。本發明在較好地控制文本擴展的噪音的同時,實現了文本語義擴展。
技術領域
本發明涉及一種語義擴展技術領域,特別是涉及一種基于語義擴展和最大邊緣相關的偽文本生成方法。
背景技術
短文本包括新聞標題、微博、網絡評論以及文檔摘要等。隨著社交網絡平臺的快速發展,網絡文本大量積聚,如何對海量短文本進行分析,如根據新聞標題進行分類、根據網絡評論進行情感識別等,在自動問答、輿情發現等領域具有良好應用價值。短文本字符數少,詞頻及詞共現頻度低,在結構化時容易出現數據稀疏問題,使基于特征提取的傳統機器學習方法和基于自動特征學習的神經網絡方法直接應用于短文本時,仍存在不足。
目前,學者針對短文本特征稀疏問題開展了大量研究。從短文本的特征擴展方面,Wang等用外部特征擴展文本向量空間,并用一種類Kmeans方法對擴展文本進行聚類。Adams等用基于WordNet上下文增強的方法擴展特征,進行即時信息分析。張海濤等提出建立小樣本簇背景特征集,并結合邊緣相關性分析選取文本特征。Wang等結合密度峰聚類及WordEmbedding對短文本進行擴展。Bicalho等提出了一種文本擴展通用框架,并基于該框架生成偽文本,進行主題建模實證研究。增強短文本語義表達能力方面,Fan等通過增加新特征,修改初始特征權值及控制特征擴展度,提高短文本分類性能。楊峰等用增量式隨機網絡進行詞語聯想以增強局部文本語義??傮w來看,現有研究主要著眼于擴展文本特征及增加特征表達強度。其中,特征增強方法雖取得了較好效果,但其人工成本高,算法復雜?;跀U展文本特征,生成偽文本的方法由于只改變輸入數據,無需改變應用模型而被廣泛關注,但現有研究較多關注的是文本特征的擴展方法。通過引入新的特征,雖然可擴展文本語義,但同時也可能引入噪音,因而使短文本發生主題偏移,反而使分類等任務的性能下降。
近年來,隨著神經網絡(Neural Networks,NNs)方法的發展,結合NNs方法對文本的詞、句子及段落進行語義表示的研究被廣泛關注。Mikolov等用Skip-gram模型學習文本向量表示,并對如何提高訓練質量及速度進行了研究。Mitchell研究短語、句子的語義組合模型,對多種向量組合函數的效果進行了實證和評價?,F有對詞、短語的語義表示方法的研究,為文本語義特征擴展提供了新的著眼點。
綜上所述,本文針對短文本擴展問題,對如何使擴展文本在盡可能小的范圍內語義最大化進行了研究。運用Word Embedding進行文本特征表示,并提出了一種結合后驗概率估計和最大邊緣相關方法的語義擴展框架,用于生成偽文本。通過將偽文本用于多種分類模型下的新聞標題分類實驗,驗證了本文偽文本生成方法的有效性。
發明內容
本發明旨在至少解決現有技術中存在的技術問題,特別創新地提出了一種基于語義擴展和最大邊緣相關的偽文本生成方法。
為了實現本發明的上述目的,本發明提供了一種基于語義擴展和最大邊緣相關的偽文本生成方法,其包括以下步驟:
S1,提取原文本的詞和/或短語特征;
S2,根據步驟S1中提取的特征通過相似度計算生成擴展詞;
S3,對步驟S2中的擴展詞進行篩選候選詞;
S4,生成偽文本。
在本發明的一種優選實施方式中,在步驟S1中,原文本的詞和/或短語特征的提取方法包括:
設S為原文本,將其表示為詞向量矩陣,設窗口大小為h,對窗口內詞向量求和,得到S的一組短語特征T(h),表示為其中,是大小為h的窗口內詞向量相加而成的新向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶理工大學,未經重慶理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910369823.4/2.html,轉載請聲明來源鉆瓜專利網。





